2025-09-09 06:47:06

O novo artigo da FAIR apresenta o ExIt (Exploratory Iteration), um método baseado em RL que treina LLMs em refinamentos de um único passo, mas se baseia em suas próprias saídas—desbloqueando uma auto-melhoria eficiente em múltiplos passos na inferência e alcançando um aumento de 22% no MLE-bench.

OWN11.85%

Ver original

Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.

17 gostos

Recompensa
17
9
Republicar
Partilhar

Comentar

0/400

PanicSeller

· 1h atrás

Fritar idiotas dá mais dinheiro

Ver originalResponder0

ruggedNotShrugged

· 17h atrás

Aguardo a evolução do modelo

Ver originalResponder0

NewPumpamentals

· 09-09 22:12

Reforço de aprendizado é uma boa coisa

Ver originalResponder0

RugpullTherapist

· 09-09 07:17

Uma boa ideia inovadora

Ver originalResponder0

ResearchChadButBroke

· 09-09 07:16

É um resultado muito interessante.

Ver originalResponder0

DaoGovernanceOfficer

· 09-09 07:05

Falando empiricamente, aplicação fascinante de RL.

Ver originalResponder0

Tópicos em destaqueVer mais
#SOL Price Prediction
22k Popularidade
#Double Rewards With GUSD
20k Popularidade
#DOGE ETF Launch
25k Popularidade
#Gate Alpha New Listings
51k Popularidade
#My Top AI Coin
33k Popularidade

Pino