Model bahasa berhalusinasi karena prosedur pelatihan dan evaluasi standar mendorong dugaan, bukan pengakuan ketidakpastian. Ini dijelaskan dalam makalah penelitian OpenAI.
Di perusahaan memberikan definisi masalah berikut:
"Halusinasi adalah pernyataan yang tampaknya benar tetapi salah, yang dihasilkan oleh model bahasa. Mereka dapat muncul dengan cara yang tidak terduga bahkan dalam jawaban untuk pertanyaan yang tampaknya sederhana."
Misalnya, ketika para peneliti bertanya kepada "chatbot yang banyak digunakan" tentang judul disertasi doktor Adam Tauman Kalai (penulis artikel), ia dengan percaya diri memberikan tiga jawaban yang berbeda, tidak satu pun dari yang benar. Ketika AI ditanya tentang tanggal lahirnya, ia menyebutkan tiga tanggal yang salah.
Menurut OpenAI, halusinasi bertahan sebagian karena metode evaluasi modern memberikan rangsangan yang salah, membuat jaringan saraf "menebak" simbol berikutnya dalam jawaban.
Sebagai analogi, diberikan situasi di mana seseorang tidak tahu jawaban yang benar untuk pertanyaan dalam tes, tetapi dapat menebak dan secara kebetulan memilih yang benar.
 dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Mengapa AI berhalusinasi? Penelitian OpenAI
Model bahasa berhalusinasi karena prosedur pelatihan dan evaluasi standar mendorong dugaan, bukan pengakuan ketidakpastian. Ini dijelaskan dalam makalah penelitian OpenAI.
Di perusahaan memberikan definisi masalah berikut:
Misalnya, ketika para peneliti bertanya kepada "chatbot yang banyak digunakan" tentang judul disertasi doktor Adam Tauman Kalai (penulis artikel), ia dengan percaya diri memberikan tiga jawaban yang berbeda, tidak satu pun dari yang benar. Ketika AI ditanya tentang tanggal lahirnya, ia menyebutkan tiga tanggal yang salah.
Menurut OpenAI, halusinasi bertahan sebagian karena metode evaluasi modern memberikan rangsangan yang salah, membuat jaringan saraf "menebak" simbol berikutnya dalam jawaban.
Sebagai analogi, diberikan situasi di mana seseorang tidak tahu jawaban yang benar untuk pertanyaan dalam tes, tetapi dapat menebak dan secara kebetulan memilih yang benar.
![](https://img-cdn.gateio.im/webp-social/moments-ea976fc9eb9ecf1547b0d54a0cda8862.webp01Perbandingan ketepatan jawaban dari dua model. Sumber: OpenAI.
Dari segi akurasi, model OpenAI yang lebih tua — o4-mini — berfungsi sedikit lebih baik. Namun, tingkat kesalahan di dalamnya jauh lebih tinggi dibandingkan dengan GPT-5, karena tebakan strategis dalam situasi yang tidak pasti meningkatkan akurasi, tetapi juga meningkatkan jumlah halusinasi.
Alasan dan Solusi
Model bahasa pada awalnya dilatih melalui "pre-training" — proses memprediksi kata berikutnya dalam sejumlah besar teks. Berbeda dengan tugas pembelajaran mesin tradisional, di sini tidak ada label "benar/salah" yang dilampirkan pada setiap pernyataan. Model hanya melihat contoh positif dari bahasa dan harus mengaproksimasi distribusi umum.
Di perusahaan tersebut memberikan contoh lain. Dalam pengenalan gambar, jika berjuta-juta foto kucing dan anjing diberi label sesuai, algoritma akan belajar untuk mengklasifikasikan mereka dengan andal. Tetapi jika setiap foto hewan peliharaan dibagi berdasarkan tanggal lahir, tugas tersebut akan selalu menghasilkan kesalahan, terlepas dari seberapa canggih algoritma tersebut.
Begitu juga dengan teks - ortografi dan tanda baca mengikuti pola yang konstan, sehingga kesalahan menghilang seiring dengan pertumbuhan skala.
Para peneliti mengklaim bahwa tidak cukup hanya dengan memasukkan "beberapa tes baru yang mempertimbangkan ketidakpastian". Sebaliknya, "estimasi yang banyak digunakan, yang berdasarkan akurasi, perlu diperbarui agar hasilnya mengecualikan upaya menebak."
Kami ingat, pada bulan Mei ForkLog menulis bahwa halusinasi tetap menjadi masalah utama AI.