Makalah baru FAIR memperkenalkan ExIt (Iterasi Eksplorasi), sebuah metode berbasis RL yang melatih LLM pada perbaikan satu langkah tetapi memanfaatkan keluaran mereka sendiri—membuka kunci perbaikan diri multi-langkah yang efisien pada inferensi dan mencapai peningkatan 22% pada MLE-bench.
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Makalah baru FAIR memperkenalkan ExIt (Iterasi Eksplorasi), sebuah metode berbasis RL yang melatih LLM pada perbaikan satu langkah tetapi memanfaatkan keluaran mereka sendiri—membuka kunci perbaikan diri multi-langkah yang efisien pada inferensi dan mencapai peningkatan 22% pada MLE-bench.