Terobosan akan terjadi dalam dua atau tiga tahun ini! Co-founder Bianbi Intelligent, Li Dahai: A cahaya telah muncul di arah interaksi manusia-mesin generasi baru

robot
Pembuatan abstrak sedang berlangsung

Ketika kecerdasan buatan mulai bergerak dari layar ke dunia nyata, interaksi manusia dan mesin sedang mengalami momen peningkatan besar.

Baik itu ponsel, mobil, maupun robot dan perangkat wearable yang semakin banyak diadopsi, pola interaksi berbasis tanya jawab yang selama ini menjadi inti dari interaksi bergiliran mulai menunjukkan kelemahan seperti respons yang lambat, persepsi yang terputus, dan gangguan konteks. Kekurangan bawaan dari metode interaksi ini sedang menjadi hambatan utama bagi AI untuk masuk ke dunia fisik.

Pada 2 Februari, pendiri bersama dan CEO 面壁智能 李大海 dalam wawancara dengan media termasuk wartawan 《每日经济新闻》 menyatakan bahwa cahaya telah mulai muncul di arah baru interaksi manusia dan mesin, tetapi lompatan besar yang sesungguhnya tidak akan terjadi dalam waktu singkat, melainkan secara bertahap melalui peningkatan kemampuan model di cloud dan di perangkat tepi. Dalam proses ini, apakah model multimodal dapat menjadi otak yang menghubungkan kecerdasan digital dan dunia fisik, sedang menjadi pertanyaan utama perhatian industri.

Sumber gambar: 面壁智能

Multimodal bukan sekadar penumpukan fungsi, melainkan perubahan paradigma interaksi

Seiring AI mulai memasuki dunia fisik, ketika menggerakkan robot atau perangkat wearable, pola interaksi manusia dan mesin tradisional mulai menunjukkan kelemahan.

Liu Zhiyuan, profesor tetap di Departemen Ilmu Komputer Universitas Tsinghua, pendiri bersama dan kepala ilmuwan 面壁智能, berpendapat bahwa bagi manusia, mendengar, berbicara, dan melihat secara alami adalah multi-kanal yang berjalan paralel, manusia dapat berbicara sambil terus mendengar dan melihat, proses ini tidak saling mengganggu. Tetapi dari sisi interaksi manusia dan mesin, sebagian besar model sebelumnya sulit memiliki kemampuan ini, “Begitu kamu mulai berbicara, tidak bisa melihat lagi, ada masalah tertentu.”

Kekurangan dari metode interaksi ini membatasi kedalaman AI menuju kecerdasan yang berwujud. Menurut Liu Zhiyuan, kemampuan interaksi yang menyerupai manusia dan sangat alami adalah langkah kunci agar robot dan terminal pintar lebih mirip manusia. “Ini (model multimodal) dan membuat robot serta terminal pintar kita di masa depan mampu berinteraksi secara alami seperti manusia, mungkin semakin dekat.”

Berdasarkan penilaian ini, kecerdasan berwujud bukanlah cabang independen, melainkan skenario aplikasi yang menuntut kemampuan interaksi model yang lebih tinggi. Liu Zhiyuan menekankan bahwa dalam skenario berwujud dan terminal pintar, sebenarnya juga membutuhkan model serupa agar dapat melayani manusia dengan lebih baik. Dalam wawancara, Liu Zhiyuan memperkirakan bahwa iterasi cepat dari kemampuan kecerdasan berwujud mungkin tidak jauh, “Kalau ditanya berapa lama lagi, saya perkirakan mungkin hanya dua atau tiga tahun.”

Di tingkat industri, penggabungan model di perangkat tepi dan perangkat keras AI sedang menjadi tantangan nyata dan kompleks.

Menurut 李大海, dengan masuknya perusahaan besar dan AI agent ke ponsel dan perangkat akhir lainnya, bentuk interaksi manusia dan mesin generasi baru sudah mulai terlihat, tetapi ini tidak berarti titik balik sudah tiba. Dia berpendapat bahwa lompatan ini tidak akan selesai dalam satu kali, “Semua orang akan terus menjelajahi arah ini, yang harus didukung oleh peningkatan berkelanjutan dari model di cloud dan di perangkat tepi.”

Bahkan dalam skenario ponsel yang saat ini banyak dibahas, teknologi masih memiliki batasan yang jelas. 李大海 menyatakan bahwa, misalnya, ponsel Doubao didukung oleh salah satu model terbaik di industri saat ini, tetapi tingkat keberhasilan menyelesaikan tugas manusia yang kompleks sebenarnya belum sepenuhnya mencapai kondisi yang ideal.

李大海 juga menganalisis lebih jauh, bahwa di satu sisi, solusi cloud murni sulit menghindari masalah privasi; di sisi lain, konsumsi sumber daya seperti daya komputasi di perangkat tepi membuat penerapan kemampuan multimodal di ponsel membutuhkan waktu lebih lama. 李大海 secara langsung menyatakan, semakin banyak modalitas, semakin besar konsumsi sumber daya, yang menentukan perbedaan ritme di berbagai bentuk perangkat.

Interaksi ponsel saat ini masih didominasi oleh suara dan sentuhan, dengan modalitas yang relatif terbatas. 李大海 memperkenalkan bahwa, sebagai contoh, keberhasilan utama dari ponsel Doubao adalah memungkinkan agen pintar untuk mengoperasikan ponsel seperti manusia, menggantikan pengguna menyelesaikan tugas kompleks, yang setara dengan menyelesaikan masalah output seperti manusia. Arah evolusi berikutnya adalah perubahan dalam metode input.

“Pada saat ini, sinkronisasi konteks antara ponsel dan manusia bergantung pada operasi aktif di layar. Jika di masa depan ponsel bisa langsung mendengarkan dan melihat dunia nyata, maka ponsel akan lebih mampu menyinkronkan dan berbagi konteks dengan pemiliknya.” 李大海 berpendapat bahwa ini adalah langkah kunci menuju ponsel menjadi agen pintar sejati, tetapi juga akan menghadapi tantangan ganda terkait konsumsi daya dan perlindungan privasi, menuntut desain produk yang lebih tinggi.

Sebaliknya, skenario seperti mobil dan robot, karena kondisi sumber daya yang lebih longgar, dianggap 李大海 sebagai arah penerapan model multimodal yang lebih berpotensi. Dalam bidang kecerdasan berwujud, dia berpendapat bahwa hambatan saat ini bukan pada badan utama, melainkan di otak. Begitu kemampuan model mengalami kemajuan yang revolusioner, kecerdasan berwujud kemungkinan akan mengalami lompatan seperti “momen ChatGPT.”

Industri akan menyaksikan ledakan kemampuan profesional model dan kemampuan interaksi secara cepat

Dalam pandangan ini, 面壁智能 tidak terlalu fokus pada satu produk atau bentuk perangkat keras tertentu, melainkan pada kemampuan untuk terus menghasilkan model berkualitas tinggi.

Dalam bidang AI, Scaling Law (hukum skala) pernah menjadi aturan yang diterima secara umum, tetapi perdebatan tentang apakah itu akan menemui hambatan tidak pernah berhenti. 面壁智能 pernah mengemukakan sudut pandang lain: Densing Law (hukum kepadatan), yaitu bahwa masa simpan model besar sangat singkat, dan kemampuan model meningkat dua kali lipat setiap sekitar 100 hari. Ini berarti, yang penting bukanlah mengembangkan model yang hebat, tetapi memiliki kemampuan untuk terus mengembangkan model hebat.

面壁智能 menempatkan dirinya sebagai “mesin litografi untuk pembuatan model besar.” 李大海 menjelaskan bahwa mesin litografi ini merujuk pada proses pelatihan model besar dengan kapasitas yang semakin tinggi.

刘知远 menambahkan bahwa logika Densing Law mirip dengan industri chip: tren masa depan model besar adalah semakin kecil ukurannya dan semakin tinggi kepadatannya. Dengan cara ini, biaya model dapat dikurangi secara ekstrem, sekaligus memungkinkan model berukuran lebih kecil untuk berjalan di perangkat yang lebih dekat dengan pengguna.

李大海 menegaskan bahwa komersialisasi model di perangkat tepi sendiri adalah bagian dari validasi kemampuan dan roda data. Mengandalkan jalur komersial semata untuk menjual model dan mencapai target penempatan di ratusan miliar perangkat mungkin cukup sulit. Jalur yang lebih realistis adalah melalui ekosistem dan pengembang, bersama-sama mendorong proses ini.

Mengenai kompetisi dengan perusahaan besar, 李大海 berpendapat bahwa peluang startup tidak hilang karena masuknya perusahaan besar. AI tetap merupakan peluang industri, dan tantangannya adalah memilih untuk menguasai bagian kecil dari jalur yang sangat luas, atau bersaing di pasar yang lebih kecil untuk menjadi yang terdepan, “Saya percaya masih ada ruang besar bagi semua orang untuk berkreasi.”

Untuk tren teknologi masa depan, 刘知远 mengemukakan dua tema utama: pertama, peningkatan kemampuan kecerdasan secara berkelanjutan; kedua, penggunaan kecerdasan yang tetap efisien. Dia berpendapat bahwa dalam satu atau dua tahun ke depan, industri akan menyaksikan peningkatan cepat dalam kemampuan profesional model dan ledakan kemampuan interaksi dengan dunia. “(Model) sebagai agen pintar, memiliki kemampuan belajar mandiri yang lebih kuat, ini adalah tren penting dalam satu atau dua tahun ke depan. Setelah memiliki kemampuan eksplorasi dan pembelajaran mandiri, langkah berikutnya adalah kolaborasi multi-agen pintar.”

刘知远 menyatakan bahwa dalam lima sampai sepuluh tahun ke depan, dunia pasti akan memasuki era konektivitas dan kolaborasi tinggi antar multi-agen, serta munculnya kecerdasan kolektif.

(Sumber artikel: 每日经济新闻)

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan