Нова стаття FAIR представляє ExIt (Exploratory Iteration), метод на основі RL, який навчає LLM на одноетапних вдосконаленнях, але використовує їхні власні виходи для початкового навчання—відкриваючи ефективне багатоетапне самоудосконалення під час інференції та досягаючи 22% приросту на MLE-bench.

STEP2.61%
OWN12.09%
MULTI1.49%
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 9
  • Репост
  • Поділіться
Прокоментувати
0/400
PanicSellervip
· 25хв. тому
炒 невдахи多赚钱
Переглянути оригіналвідповісти на0
ruggedNotShruggedvip
· 17год тому
Очікуємо на розвиток моделі
Переглянути оригіналвідповісти на0
NewPumpamentalsvip
· 09-09 22:12
Посилене навчання — це хороша річ
Переглянути оригіналвідповісти на0
RugpullTherapistvip
· 09-09 07:17
Гарна інноваційна ідея
Переглянути оригіналвідповісти на0
ResearchChadButBrokevip
· 09-09 07:16
Дуже цікаві результати.
Переглянути оригіналвідповісти на0
DaoGovernanceOfficervip
· 09-09 07:05
Емпірично кажучи, захоплююче застосування RL.
Переглянути оригіналвідповісти на0
  • Закріпити