تقدم الورقة الجديدة لـ FAIR ExIt (التكرار الاستكشافي)، وهي طريقة تعتمد على التعلم المعزز تقوم بتدريب LLMs على تحسينات خطوة واحدة ولكنها تعتمد على مخرجاتها الخاصة - مما يتيح تحسين ذاتي متعدد الخطوات بكفاءة أثناء الاستدلال ويحقق زيادة بنسبة 22% في MLE-bench.

STEP9.48%
OWN-2.14%
MULTI-0.25%
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • إعادة النشر
  • مشاركة
تعليق
0/400
NewPumpamentalsvip
· منذ 16 س
تعلم التعزيز شيء جيد
شاهد النسخة الأصليةرد0
RugpullTherapistvip
· 09-09 07:17
فكرة مبتكرة جيدة
شاهد النسخة الأصليةرد0
ResearchChadButBrokevip
· 09-09 07:16
نتيجة مثيرة للاهتمام
شاهد النسخة الأصليةرد0
DaoGovernanceOfficervip
· 09-09 07:05
من الناحية التجريبية، تطبيق RL رائع.
شاهد النسخة الأصليةرد0
  • تثبيت