2025-09-09 06:47:06

Le nouveau document de FAIR présente ExIt (Itération Exploratoire), une méthode basée sur l'apprentissage par renforcement qui entraîne les LLM sur des perfectionnements en une seule étape mais s'appuie sur leurs propres sorties—débloquant une auto-amélioration efficace en plusieurs étapes lors de l'inférence et réalisant une augmentation de 22 % sur MLE-bench.

OWN-3.08%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.

14 J'aime