2025-09-09 06:47:06

تقدم الورقة الجديدة لـ FAIR ExIt (التكرار الاستكشافي)، وهي طريقة تعتمد على التعلم المعزز تقوم بتدريب LLMs على تحسينات خطوة واحدة ولكنها تعتمد على مخرجاتها الخاصة - مما يتيح تحسين ذاتي متعدد الخطوات بكفاءة أثناء الاستدلال ويحقق زيادة بنسبة 22% في MLE-bench.

OWN-2.14%

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 14