2025-09-09 06:47:06

El nuevo documento de FAIR presenta ExIt (Iteración Exploratoria), un método basado en RL que entrena LLMs en refinamientos de un solo paso pero se apoya en sus propias salidas—desbloqueando una mejora autosuficiente eficiente de múltiples pasos en la inferencia y logrando un aumento del 22% en MLE-bench.

STEP-8.44%

OWN-2.6%

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

21 me gusta

Recompensa
21
10
Republicar
Compartir

Comentar

0/400

GateUser-e51e87c7

· hace16h

¡Es increíble lo potente que es este efecto!

Ver originalesResponder0

PanicSeller

· 09-11 11:41

炒tontos多赚钱

Ver originalesResponder0

ruggedNotShrugged

· 09-10 19:04

Esperando la evolución del modelo

Ver originalesResponder0

NewPumpamentals

· 09-09 22:12

El aprendizaje reforzado es algo bueno

Ver originalesResponder0

RugpullTherapist

· 09-09 07:17

Buena idea innovadora

Ver originalesResponder0

ResearchChadButBroke

· 09-09 07:16

Es un resultado muy interesante.

Ver originalesResponder0

DaoGovernanceOfficer

· 09-09 07:05

Hablando empíricamente, fascinante aplicación de RL.

Ver originalesResponder0

Temas de actualidadVer más
#Crypto Market Rebound
255k Popularidad
#SOL Price Prediction
42k Popularidad
#Double Rewards With GUSD
35k Popularidad
#DOGE ETF Launch
38k Popularidad
#Gate Alpha New Listings
38k Popularidad

Anclado