Le nouveau document de FAIR présente ExIt (Itération Exploratoire), une méthode basée sur l'apprentissage par renforcement qui entraîne les LLM sur des perfectionnements en une seule étape mais s'appuie sur leurs propres sorties—débloquant une auto-amélioration efficace en plusieurs étapes lors de l'inférence et réalisant une augmentation de 22 % sur MLE-bench.
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
14 J'aime
Récompense
14
4
Reposter
Partager
Commentaire
0/400
NewPumpamentals
· Il y a 7h
Le renforcement d'apprentissage est une bonne chose.
Voir l'originalRépondre0
RugpullTherapist
· Il y a 22h
Une bonne idée d'innovation
Voir l'originalRépondre0
ResearchChadButBroke
· Il y a 22h
C'est un résultat très intéressant.
Voir l'originalRépondre0
DaoGovernanceOfficer
· Il y a 22h
Empiriquement parlant, une application RL fascinante.
Le nouveau document de FAIR présente ExIt (Itération Exploratoire), une méthode basée sur l'apprentissage par renforcement qui entraîne les LLM sur des perfectionnements en une seule étape mais s'appuie sur leurs propres sorties—débloquant une auto-amélioration efficace en plusieurs étapes lors de l'inférence et réalisant une augmentation de 22 % sur MLE-bench.