AI Pertarungan Seratus Model: Dari Revolusi Transformer ke Kompetisi Ekosistem

2025-07-24 05:05:58

"Pertempuran Seratus Model" di Tengah Gelombang Model Besar AI

Bulan lalu, dunia AI mengguncang dengan "Perang Hewan". Di satu sisi ada Llama dari Meta, yang sangat disukai pengembang karena sifat open-source-nya. Setelah mengacu pada makalah dan kode Llama, perusahaan listrik Jepang NEC dengan cepat mengembangkan versi bahasa Jepang dari ChatGPT, mengatasi hambatan dalam perkembangan AI di Jepang.

Sisi lain adalah model besar bernama Falcon. Pada bulan Mei tahun ini, Falcon-40B diluncurkan, melampaui Llama dan menduduki peringkat teratas dalam daftar LLM sumber terbuka. Daftar ini dibuat oleh komunitas model sumber terbuka, menyediakan standar evaluasi kemampuan LLM dan peringkat. Llama dan Falcon bergantian menduduki posisi teratas dalam daftar.

Setelah Llama 2 dirilis, sementara mengambil alih posisi teratas; tetapi pada awal September, Falcon meluncurkan versi 180B, sekali lagi meraih peringkat yang lebih tinggi.

Menariknya, pengembang Falcon adalah Institut Penelitian Inovasi Teknologi di Abu Dhabi, ibu kota Uni Emirat Arab, bukan perusahaan teknologi. Pihak berwenang Uni Emirat Arab menyatakan bahwa keterlibatan dalam kompetisi AI adalah untuk mengguncang pola dominan.

Sehari setelah peluncuran Falcon 180B, Menteri Kecerdasan Buatan Uni Emirat Arab terpilih dalam daftar 100 orang paling berpengaruh di bidang AI versi "Time Magazine", bersama dengan "Bapak AI" Geoffrey Hinton, Sam Altman dari OpenAI, dan lainnya.

Saat ini, bidang AI telah memasuki fase perkembangan yang beragam. Negara dan perusahaan yang memiliki kekuatan finansial tertentu sedang mencoba untuk menciptakan versi lokal ChatGPT. Hanya di kawasan Teluk, sudah ada beberapa pelaku. Pada bulan Agustus, Arab Saudi membeli lebih dari 3000 chip H100 untuk universitas dalam negeri, yang digunakan untuk melatih LLM.

Investor Zhu Xiaohu once commented that back then, internet entrepreneurship was considered to lack barriers, and now hard technology large model entrepreneurship has also evolved into a battle of hundreds of models.

Mengapa teknologi keras yang awalnya dianggap sebagai sesuatu dengan hambatan tinggi kini menjadi proyek yang dikembangkan secara bersaing oleh berbagai negara?

Transformer Memicu Revolusi AI

Terlepas dari kewarganegaraan, model besar saat ini termasuk seri GPT, semuanya dibangun di atas dasar algoritma Transformer. Pada tahun 2017, delapan ilmuwan Google menerbitkan algoritma Transformer dalam makalah "Attention Is All You Need", yang menjadi makalah yang paling banyak dikutip ketiga dalam sejarah AI, dan juga menjadi kunci dari gelombang panas AI kali ini.

Sebelumnya, "mengajarkan mesin membaca" selalu menjadi masalah sulit di kalangan akademis. Berbeda dengan pengenalan gambar, manusia saat membaca akan mengaitkan pemahaman dengan konteks. Jaringan saraf awal sulit memahami teks panjang, sering kali muncul masalah mistranslasi.

Pada tahun 2014, ilmuwan Google Ilya mengusulkan jaringan saraf berulang (RNN) untuk memproses bahasa alami, yang secara signifikan meningkatkan kinerja Google Translate. RNN memperkenalkan "desain sirkuler", yang memungkinkan jaringan saraf memiliki kemampuan untuk menggabungkan konteks.

RNN membangkitkan semangat di kalangan akademisi, tetapi ada masalah efisiensi rendah dan kesulitan dalam menangani banyak parameter. Sejak 2015, Shazeel dan lainnya mulai mengembangkan pengganti RNN, yang akhirnya melahirkan Transformer.

Transformer memiliki dua perbaikan besar dibandingkan RNN: pertama, menggunakan encoding posisi sebagai pengganti desain siklik, yang memungkinkan komputasi paralel dan secara signifikan meningkatkan efisiensi pelatihan; kedua, lebih lanjut memperkuat kemampuan pemahaman konteks. Transformer menyelesaikan banyak masalah dan secara bertahap menjadi solusi utama di bidang NLP.

Pada tahun 2019, OpenAI mengembangkan GPT-2 berdasarkan Transformer, mengejutkan dunia akademis. Google segera meluncurkan Meena yang lebih kuat, hanya dengan meningkatkan parameter dan kekuatan komputasi yang melampaui GPT-2. Kemunculan Transformer membuat kecepatan inovasi algoritma melambat, faktor-faktor rekayasa seperti data, kekuatan komputasi, dan arsitektur model menjadi kunci dalam kompetisi AI.

Ilmuwan komputer Andrew Ng percaya bahwa AI sedang menjadi teknologi umum seperti listrik dan internet. Lembaga analisis Semi Analysis memperkirakan bahwa perusahaan teknologi besar lainnya diharapkan segera menciptakan model besar yang setara dengan kinerja GPT-4.

Tantangan di Balik Pertarungan Baik Model

Hingga Juli tahun ini, jumlah model besar di China telah mencapai 130, melebihi Amerika Serikat yang memiliki 114. Selain China dan Amerika, negara kaya lainnya juga mulai mengembangkan model besar lokal, seperti Bhashini dari India dan HyperClova X dari Naver Korea.

Situasi ini mengingatkan kita pada era gelembung internet. Meskipun Transformer menurunkan ambang pengembangan model besar, itu tidak berarti semua orang bisa menjadi raksasa AI. Mengambil "Pertarungan Hewan" sebagai contoh, Falcon meskipun unggul dalam peringkat, tetapi dampaknya terhadap Meta terbatas.

Untuk model besar sumber terbuka, komunitas pengembang yang aktif adalah kekuatan inti. Meta telah menetapkan strategi sumber terbuka sejak tahun 2015. Pada bulan Oktober, Meta juga meluncurkan program "Insentif Kreator AI", yang mendanai pengembang yang menggunakan Llama 2 untuk menyelesaikan masalah sosial.

Saat ini, seri Llama dari Meta telah menjadi acuan untuk LLM sumber terbuka. Hingga awal Oktober, 8 dari 10 teratas di peringkat Hugging Face dikembangkan berdasarkan Llama 2, dengan lebih dari 1500 LLM yang menggunakan protokol sumber terbukanya.

Meskipun meningkatkan kinerja adalah jalan yang mungkin, namun sebagian besar LLM masih memiliki jarak yang jelas dibandingkan dengan GPT-4. Dalam pengujian AgentBench, GPT-4 menduduki peringkat teratas dengan skor 4,41, diikuti oleh Claude dengan skor 2,77, sementara LLM sumber terbuka umumnya berada di sekitar 1 poin. Jarak ini berasal dari kekuatan tim OpenAI dan pengalaman yang telah terakumulasi selama bertahun-tahun.

Oleh karena itu, daya saing inti dari model besar terletak pada pembangunan ekosistem ( sumber terbuka ) atau kemampuan inferensi murni ( tertutup ). Seiring dengan perkembangan komunitas sumber terbuka, kinerja berbagai LLM mungkin akan menyatu. Masalah yang lebih langsung adalah, kecuali Midjourney, tampaknya belum ada model besar yang berhasil menghasilkan keuntungan.

Dilema Penetapan Nilai

Pada bulan Agustus tahun ini, sebuah artikel yang memprediksi bahwa OpenAI mungkin bangkrut pada akhir 2024 menarik perhatian. Artikel tersebut menunjukkan bahwa sejak mengembangkan ChatGPT, kerugian OpenAI semakin meluas dengan kerugian sekitar 540 juta dolar AS pada tahun 2022, tergantung pada investasi dari Microsoft. Ini mencerminkan masalah ketidakseimbangan antara biaya dan pendapatan yang umum dihadapi oleh penyedia model besar.

Biaya yang tinggi membuat saat ini para penerima manfaat utama adalah produsen chip seperti NVIDIA. Menurut Omdia, NVIDIA menjual lebih dari 300.000 chip H100 pada kuartal kedua, dengan berat setara dengan 4,5 pesawat Boeing 747. Kinerja NVIDIA meroket, harga pasar chip H100 bekas melonjak menjadi 40.000-50.000 dolar AS, sementara biaya hanya sedikit lebih dari 3.000 dolar AS.

Biaya komputasi telah menjadi hambatan dalam pengembangan industri. Sequoia Capital memperkirakan bahwa perusahaan teknologi global akan menghabiskan 200 miliar dolar AS setiap tahun untuk membangun infrastruktur model besar, sementara pendapatan tahunan model besar hanya maksimal 75 miliar dolar AS, sehingga ada celah setidaknya 125 miliar dolar AS.

Kebanyakan perusahaan perangkat lunak masih belum menemukan model keuntungan meskipun telah menginvestasikan banyak uang. Bahkan raksasa seperti Microsoft dan Adobe juga menghadapi tantangan. GitHub Copilot yang dikembangkan Microsoft bekerja sama dengan OpenAI mengalami kerugian sebesar 20-80 dolar per pengguna per bulan. Adobe memperkenalkan sistem poin untuk alat Firefly AI, membatasi penggunaan berlebihan oleh pengguna.

Sebagian besar aplikasi model besar masih terbatas pada obrolan. Meskipun OpenAI dan ChatGPT telah mendorong revolusi AI, nilai dari pelatihan model besar semata masih diragukan. Dengan meningkatnya persaingan yang homogen dan semakin banyaknya model sumber terbuka, ruang bagi penyedia model besar murni mungkin akan semakin menyusut.

Seperti sukses iPhone 4 yang tidak terletak pada prosesor A4, tetapi pada ekosistem aplikasinya, masa depan model besar juga akan bergantung pada nilai yang diciptakannya dalam aplikasi nyata.

GPT-1.44%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

13 Suka