El nuevo documento de FAIR presenta ExIt (Iteración Exploratoria), un método basado en RL que entrena LLMs en refinamientos de un solo paso pero se apoya en sus propias salidas—desbloqueando una mejora autosuficiente eficiente de múltiples pasos en la inferencia y logrando un aumento del 22% en MLE-bench.

STEP-8.44%
OWN-2.6%
MULTI3.15%
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 10
  • Republicar
  • Compartir
Comentar
0/400
GateUser-e51e87c7vip
· hace16h
¡Es increíble lo potente que es este efecto!
Ver originalesResponder0
PanicSellervip
· 09-11 11:41
炒tontos多赚钱
Ver originalesResponder0
ruggedNotShruggedvip
· 09-10 19:04
Esperando la evolución del modelo
Ver originalesResponder0
NewPumpamentalsvip
· 09-09 22:12
El aprendizaje reforzado es algo bueno
Ver originalesResponder0
RugpullTherapistvip
· 09-09 07:17
Buena idea innovadora
Ver originalesResponder0
ResearchChadButBrokevip
· 09-09 07:16
Es un resultado muy interesante.
Ver originalesResponder0
DaoGovernanceOfficervip
· 09-09 07:05
Hablando empíricamente, fascinante aplicación de RL.
Ver originalesResponder0
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)