FAIR'ın yeni makalesi, ExIt ( Keşif İterasyonu )'nu tanıtıyor; bu, LLM'leri tek adımlı iyileştirmeler üzerinde eğiten ancak kendi çıktılarından avantaj sağlayan RL tabanlı bir yöntemdir—çıkarsama aşamasında verimli çok adımlı kendi kendine iyileşmeyi açığa çıkararak MLE-bench üzerinde %22'lik bir artış sağlıyor.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
21 Likes
Reward
21
10
Repost
Share
Comment
0/400
GateUser-e51e87c7
· 8h ago
Bu etki inanılmaz derecede güçlü.
View OriginalReply0
PanicSeller
· 09-11 11:41
Enayiiler ile daha fazla para kazanmak
View OriginalReply0
ruggedNotShrugged
· 09-10 19:04
Modelin ilerlemesini bekliyorum
View OriginalReply0
NewPumpamentals
· 09-09 22:12
Güçlendirilmiş öğrenme iyi bir şey
View OriginalReply0
RugpullTherapist
· 09-09 07:17
İyi bir yenilikçi düşünce.
View OriginalReply0
ResearchChadButBroke
· 09-09 07:16
Çok ilginç bir sonuç.
View OriginalReply0
DaoGovernanceOfficer
· 09-09 07:05
Ampirik olarak konuşursak, ilginç bir RL uygulaması.
FAIR'ın yeni makalesi, ExIt ( Keşif İterasyonu )'nu tanıtıyor; bu, LLM'leri tek adımlı iyileştirmeler üzerinde eğiten ancak kendi çıktılarından avantaj sağlayan RL tabanlı bir yöntemdir—çıkarsama aşamasında verimli çok adımlı kendi kendine iyileşmeyi açığa çıkararak MLE-bench üzerinde %22'lik bir artış sağlıyor.