Perkembangan industri AI baru-baru ini dipandang oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan GPT meningkatkan efisiensi kerja di AS sekitar 20%. Kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, di mana desain kode yang tepat di masa lalu berubah menjadi kerangka model besar yang lebih umum yang disematkan dalam perangkat lunak, memungkinkan perangkat lunak memiliki kinerja yang lebih baik dan mendukung input dan output modal yang lebih luas. Teknologi pembelajaran mendalam memang membawa kejayaan keempat bagi industri AI, gelombang ini juga mempengaruhi industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Kemudian akan dilakukan analisis mendalam mengenai rantai pasokan hulu dan hilir dalam pembelajaran mendalam, seperti GPU, komputasi awan, sumber data, dan perangkat tepi, serta kondisi perkembangan dan tren saat ini. Selanjutnya, akan dibahas secara esensial hubungan antara industri Crypto dan AI, serta pemetaan struktur rantai industri AI yang terkait dengan Crypto.
Sejarah Pengembangan Industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, dunia akademis dan industri telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan di berbagai latar belakang disiplin ilmu pada berbagai era.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", di mana konsep teknologi ini adalah membiarkan mesin berulang kali beradaptasi berdasarkan data untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf menguasai, yang juga dikenal sebagai pembelajaran mendalam, alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron cukup banyak, akan ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, dan setelah mengalami banyak data, neuron tersebut akan mencapai kondisi optimal, yang juga merupakan asal dari kata "dalam" - jumlah lapisan dan neuron yang cukup banyak.
Pemahaman sederhana adalah bahwa kita membangun sebuah fungsi, di mana ketika kita memasukkan X=2, Y=3; dan ketika X=3, Y=5. Jika kita ingin fungsi ini mampu menangani semua nilai X, maka kita perlu terus menambahkan derajat fungsi ini dan parameternya. Misalnya, kita bisa membangun fungsi yang memenuhi kondisi ini sebagai Y = 2X -1. Namun, jika ada sebuah data di mana X=2, Y=11, kita perlu membangun ulang fungsi yang sesuai dengan ketiga titik data ini. Dengan menggunakan GPU untuk melakukan brute force, kita menemukan bahwa Y = X2 -3X +5 cukup cocok, tetapi tidak perlu sepenuhnya sesuai dengan data, hanya perlu mematuhi keseimbangan, output yang kira-kira mirip sudah cukup. Di sini, X2, X, dan X0 mewakili neuron yang berbeda, sedangkan 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambahkan neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga memiliki beberapa iterasi dan evolusi teknis, seperti jaringan saraf awal, jaringan saraf umpan maju, RNN, CNN, GAN, akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, menambahkan sebuah konverter ( Transformer ), untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk merepresentasikan. Kemudian input ini dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan tipe data apapun, yaitu mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama adalah pada tahun 1960-an, sepuluh tahun setelah teknologi AI diperkenalkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta dialog antara manusia dan mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan NASA oleh Universitas Stanford, yang memiliki pengetahuan kimia yang sangat kuat, dan melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban seperti seorang ahli kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi antara basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, ilmuwan dan filsuf asal Amerika keturunan Israel, Judea Pearl(, mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengajukan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson ) dari IBM mengalahkan manusia dan meraih juara dalam acara kuis "Jeopardy" (.
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang belajar melalui cara saling berkompetisi antara dua jaringan saraf, dapat menghasilkan foto yang hampir tidak dapat dibedakan dari yang asli. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam dalam majalah "Nature", yang segera memicu respons besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, dan investor malaikat Peter Thiel) serta lainnya mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang didasarkan pada teknologi pembelajaran mendalam bertanding melawan juara dunia Go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4 banding 1.
Pada tahun 2017, perusahaan teknologi robotik Hanson Robotics yang berbasis di Hong Kong, (Hanson Robotics), mengembangkan robot humanoid bernama Sophia, yang dikenal sebagai robot pertama dalam sejarah yang memperoleh status sebagai warga negara kelas satu, dengan ekspresi wajah yang kaya dan kemampuan pemahaman bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak bakat dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI meluncurkan GPT( Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pada pembelajaran mendalam, mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih tinggi daripada versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja mutakhir dalam berbagai tugas NLP( seperti menjawab pertanyaan, terjemahan, dan penulisan artikel).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, 10 kali lipat dari GPT-3.
Aplikasi ChatGPT yang berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang tercepat dalam sejarah untuk mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini semuanya menggunakan metode pembelajaran mendalam berbasis jaringan syaraf. Dengan GPT sebagai pelopor, model besar ini telah menciptakan gelombang panas dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi telah meledak secara besar-besaran. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri dari algoritma pembelajaran mendalam. Dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, bagaimana komponen hulu dan hilir terbentuk, serta bagaimana keadaan dan hubungan penawaran dan permintaan hilir dan hulu serta perkembangan masa depan.
Pertama-tama, yang perlu kita jelaskan adalah bahwa dalam pelatihan model besar LLMs yang dipimpin oleh GPT berdasarkan teknologi Transformer(, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah masukan teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat secara kasar dianggap sebagai satu Token, sementara setiap karakter Han dapat secara kasar dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan untuk penetapan harga GPT.
Langkah pertama, pre-training. Dengan memberikan cukup banyak pasangan data ke lapisan input, mirip dengan contoh yang diberikan di bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model ini, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data, tetapi dengan kualitas yang sangat tinggi, untuk melatih, perubahan semacam ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau kualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama, akan dibangun sebuah model baru yang kami sebut "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini akan cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun, kadang-kadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga paling banyak, sementara fine-tuning membutuhkan data berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengiterasi parameter secara berulang melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Selama proses pelatihan, semakin banyak parameter yang ada, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0, sehingga perubahan parameter sangat terbatas dalam data yang dapat diusulkan, karena pada dasarnya tetap merupakan garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, dan lebih banyak data dapat diusulkan. Inilah sebabnya mengapa model besar menghasilkan keajaiban, dan juga alasan mengapa sering disebut model besar, pada dasarnya adalah sejumlah besar neuron dan parameter, serta sejumlah besar data, sambil memerlukan daya komputasi yang besar.
Oleh karena itu, kinerja model besar terutama dipengaruhi oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga faktor ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan melalui aturan empiris umum, sehingga kita dapat memperkirakan jumlah daya komputasi yang perlu dibeli serta waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops sebagai satuan dasar, yang mewakili satu operasi floating-point. Operasi floating-point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian nilai non-integer, seperti 2.5 + 3.557. Floating-point menunjukkan kemampuan untuk memiliki angka desimal, sedangkan FP16 mewakili presisi yang mendukung angka desimal, dan FP32 adalah presisi yang lebih umum. Berdasarkan aturan praktis yang telah terbukti, pra-pelatihan
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
20 Suka
Hadiah
20
3
Bagikan
Komentar
0/400
FloorSweeper
· 07-25 20:05
pssh... tipikal papaer hands fomo'ing ke hype ai rn... sudah melihat siklus ini sebelumnya
Lihat AsliBalas0
MindsetExpander
· 07-25 13:44
Ah, apakah kode semua diubah oleh model besar?
Lihat AsliBalas0
CryptoNomics
· 07-25 13:43
klaim efisiensi 20% Anda kurang ketat secara statistik... jalankan analisis regresi yang tepat terlebih dahulu, smh
AI dan enkripsi teknologi digabungkan: dari sejarah perkembangan hingga analisis menyeluruh rantai industri
AI x Crypto: Dari Nol ke Puncak
Pendahuluan
Perkembangan industri AI baru-baru ini dipandang oleh beberapa orang sebagai revolusi industri keempat. Munculnya model besar secara signifikan meningkatkan efisiensi di berbagai sektor, diperkirakan GPT meningkatkan efisiensi kerja di AS sekitar 20%. Kemampuan generalisasi yang dibawa oleh model besar dianggap sebagai paradigma desain perangkat lunak baru, di mana desain kode yang tepat di masa lalu berubah menjadi kerangka model besar yang lebih umum yang disematkan dalam perangkat lunak, memungkinkan perangkat lunak memiliki kinerja yang lebih baik dan mendukung input dan output modal yang lebih luas. Teknologi pembelajaran mendalam memang membawa kejayaan keempat bagi industri AI, gelombang ini juga mempengaruhi industri cryptocurrency.
Laporan ini akan membahas secara rinci sejarah perkembangan industri AI, klasifikasi teknologi, serta dampak penemuan teknologi pembelajaran mendalam terhadap industri. Kemudian akan dilakukan analisis mendalam mengenai rantai pasokan hulu dan hilir dalam pembelajaran mendalam, seperti GPU, komputasi awan, sumber data, dan perangkat tepi, serta kondisi perkembangan dan tren saat ini. Selanjutnya, akan dibahas secara esensial hubungan antara industri Crypto dan AI, serta pemetaan struktur rantai industri AI yang terkait dengan Crypto.
Sejarah Pengembangan Industri AI
Industri AI dimulai pada tahun 1950-an, untuk mewujudkan visi kecerdasan buatan, dunia akademis dan industri telah mengembangkan berbagai aliran untuk mewujudkan kecerdasan buatan di berbagai latar belakang disiplin ilmu pada berbagai era.
Teknologi kecerdasan buatan modern terutama menggunakan istilah "pembelajaran mesin", di mana konsep teknologi ini adalah membiarkan mesin berulang kali beradaptasi berdasarkan data untuk meningkatkan kinerja sistem. Langkah utama adalah mengirimkan data ke algoritma, menggunakan data ini untuk melatih model, menguji dan menerapkan model, serta menggunakan model untuk menyelesaikan tugas prediksi otomatis.
Saat ini, ada tiga aliran utama dalam pembelajaran mesin, yaitu koneksionisme, simbolisme, dan behaviorisme, yang masing-masing meniru sistem saraf, pemikiran, dan perilaku manusia.
Saat ini, konektivisme yang diwakili oleh jaringan saraf menguasai, yang juga dikenal sebagai pembelajaran mendalam, alasan utamanya adalah arsitektur ini memiliki satu lapisan input, satu lapisan output, tetapi memiliki beberapa lapisan tersembunyi. Begitu jumlah lapisan dan neuron cukup banyak, akan ada cukup kesempatan untuk menyesuaikan tugas umum yang kompleks. Melalui input data, parameter neuron dapat terus disesuaikan, dan setelah mengalami banyak data, neuron tersebut akan mencapai kondisi optimal, yang juga merupakan asal dari kata "dalam" - jumlah lapisan dan neuron yang cukup banyak.
Pemahaman sederhana adalah bahwa kita membangun sebuah fungsi, di mana ketika kita memasukkan X=2, Y=3; dan ketika X=3, Y=5. Jika kita ingin fungsi ini mampu menangani semua nilai X, maka kita perlu terus menambahkan derajat fungsi ini dan parameternya. Misalnya, kita bisa membangun fungsi yang memenuhi kondisi ini sebagai Y = 2X -1. Namun, jika ada sebuah data di mana X=2, Y=11, kita perlu membangun ulang fungsi yang sesuai dengan ketiga titik data ini. Dengan menggunakan GPU untuk melakukan brute force, kita menemukan bahwa Y = X2 -3X +5 cukup cocok, tetapi tidak perlu sepenuhnya sesuai dengan data, hanya perlu mematuhi keseimbangan, output yang kira-kira mirip sudah cukup. Di sini, X2, X, dan X0 mewakili neuron yang berbeda, sedangkan 1, -3, dan 5 adalah parameternya.
Pada saat ini, jika kita memasukkan sejumlah besar data ke dalam jaringan saraf, kita dapat menambahkan neuron dan mengiterasi parameter untuk menyesuaikan data baru. Dengan cara ini, kita dapat menyesuaikan semua data.
Dan teknologi pembelajaran mendalam berbasis jaringan saraf juga memiliki beberapa iterasi dan evolusi teknis, seperti jaringan saraf awal, jaringan saraf umpan maju, RNN, CNN, GAN, akhirnya berevolusi menjadi model besar modern seperti teknologi Transformer yang digunakan oleh GPT, teknologi Transformer hanyalah salah satu arah evolusi jaringan saraf, menambahkan sebuah konverter ( Transformer ), untuk mengkodekan semua modal ( seperti audio, video, gambar, dll ) menjadi nilai yang sesuai untuk merepresentasikan. Kemudian input ini dimasukkan ke dalam jaringan saraf, sehingga jaringan saraf dapat menyesuaikan dengan tipe data apapun, yaitu mewujudkan multimodal.
Perkembangan AI telah melalui tiga gelombang teknologi. Gelombang pertama adalah pada tahun 1960-an, sepuluh tahun setelah teknologi AI diperkenalkan. Gelombang ini dipicu oleh perkembangan teknologi simbolis yang menyelesaikan masalah pemrosesan bahasa alami yang umum serta dialog antara manusia dan mesin. Pada periode yang sama, sistem pakar lahir, yaitu sistem pakar DENRAL yang diselesaikan di bawah pengawasan NASA oleh Universitas Stanford, yang memiliki pengetahuan kimia yang sangat kuat, dan melakukan inferensi melalui pertanyaan untuk menghasilkan jawaban seperti seorang ahli kimia. Sistem pakar kimia ini dapat dianggap sebagai kombinasi antara basis pengetahuan kimia dan sistem inferensi.
Setelah sistem pakar, pada tahun 1990-an, ilmuwan dan filsuf asal Amerika keturunan Israel, Judea Pearl(, mengusulkan jaringan Bayesian, yang juga dikenal sebagai jaringan keyakinan. Pada periode yang sama, Brooks mengusulkan robotika berbasis perilaku, menandai kelahiran behaviorisme.
Pada tahun 1997, IBM Deep Blue mengalahkan juara catur Kasparov dengan skor 3.5:2.5, kemenangan ini dianggap sebagai tonggak dalam kecerdasan buatan, teknologi AI memasuki puncak perkembangan kedua.
Gelombang ketiga teknologi AI terjadi pada tahun 2006. Tiga raksasa deep learning, Yann LeCun, Geoffrey Hinton, dan Yoshua Bengio, mengajukan konsep deep learning, sebuah algoritma yang menggunakan jaringan saraf buatan sebagai arsitektur untuk pembelajaran representasi data. Setelah itu, algoritma deep learning secara bertahap berevolusi, dari RNN, GAN hingga Transformer dan Stable Diffusion, kedua algoritma ini bersama-sama membentuk gelombang teknologi ketiga ini, dan ini juga merupakan masa kejayaan koneksionisme.
Banyak peristiwa ikonik juga muncul seiring dengan eksplorasi dan evolusi teknologi pembelajaran mendalam, termasuk:
Pada tahun 2011, Watson ) dari IBM mengalahkan manusia dan meraih juara dalam acara kuis "Jeopardy" (.
Pada tahun 2014, Goodfellow mengusulkan GAN) Jaringan Adversarial Generatif, Generative Adversarial Network(, yang belajar melalui cara saling berkompetisi antara dua jaringan saraf, dapat menghasilkan foto yang hampir tidak dapat dibedakan dari yang asli. Selain itu, Goodfellow juga menulis sebuah buku berjudul "Deep Learning", yang dikenal sebagai buku bunga, merupakan salah satu buku pengantar penting di bidang pembelajaran mendalam.
Pada tahun 2015, Hinton dan rekan-rekannya mengajukan algoritma pembelajaran mendalam dalam majalah "Nature", yang segera memicu respons besar di kalangan akademisi dan industri.
Pada tahun 2015, OpenAI didirikan, Musk, Presiden YC Altman, dan investor malaikat Peter Thiel) serta lainnya mengumumkan investasi bersama sebesar 1 miliar dolar.
Pada tahun 2016, AlphaGo yang didasarkan pada teknologi pembelajaran mendalam bertanding melawan juara dunia Go, pemain profesional sembilan dan Li Shishi, dan menang dengan skor total 4 banding 1.
Pada tahun 2017, perusahaan teknologi robotik Hanson Robotics yang berbasis di Hong Kong, (Hanson Robotics), mengembangkan robot humanoid bernama Sophia, yang dikenal sebagai robot pertama dalam sejarah yang memperoleh status sebagai warga negara kelas satu, dengan ekspresi wajah yang kaya dan kemampuan pemahaman bahasa manusia.
Pada tahun 2017, Google yang memiliki banyak bakat dan cadangan teknologi di bidang kecerdasan buatan menerbitkan makalah berjudul "Attention is all you need" yang memperkenalkan algoritma Transformer, model bahasa berskala besar mulai muncul.
Pada tahun 2018, OpenAI meluncurkan GPT( Generative Pre-trained Transformer) yang dibangun berdasarkan algoritma Transformer, yang merupakan salah satu model bahasa terbesar pada saat itu.
Pada tahun 2018, tim Google Deepmind merilis AlphaGo yang berbasis pada pembelajaran mendalam, mampu melakukan prediksi struktur protein, dianggap sebagai tanda kemajuan besar di bidang kecerdasan buatan.
Pada tahun 2019, OpenAI merilis GPT-2, model ini memiliki 1,5 miliar parameter.
Pada tahun 2020, OpenAI mengembangkan GPT-3, yang memiliki 175 miliar parameter, 100 kali lebih tinggi daripada versi sebelumnya GPT-2. Model ini dilatih menggunakan 570GB teks dan dapat mencapai kinerja mutakhir dalam berbagai tugas NLP( seperti menjawab pertanyaan, terjemahan, dan penulisan artikel).
Pada tahun 2021, OpenAI merilis GPT-4, model ini memiliki 1,76 triliun parameter, 10 kali lipat dari GPT-3.
Aplikasi ChatGPT yang berbasis model GPT-4 diluncurkan pada Januari 2023, dan pada bulan Maret ChatGPT mencapai seratus juta pengguna, menjadi aplikasi yang tercepat dalam sejarah untuk mencapai seratus juta pengguna.
Pada tahun 2024, OpenAI meluncurkan GPT-4 omni.
Rantai Industri Pembelajaran Mendalam
Model bahasa besar saat ini semuanya menggunakan metode pembelajaran mendalam berbasis jaringan syaraf. Dengan GPT sebagai pelopor, model besar ini telah menciptakan gelombang panas dalam kecerdasan buatan, banyak pemain memasuki jalur ini, dan kami juga menemukan bahwa permintaan pasar untuk data dan daya komputasi telah meledak secara besar-besaran. Oleh karena itu, dalam bagian laporan ini, kami terutama mengeksplorasi rantai industri dari algoritma pembelajaran mendalam. Dalam industri AI yang didominasi oleh algoritma pembelajaran mendalam, bagaimana komponen hulu dan hilir terbentuk, serta bagaimana keadaan dan hubungan penawaran dan permintaan hilir dan hulu serta perkembangan masa depan.
Pertama-tama, yang perlu kita jelaskan adalah bahwa dalam pelatihan model besar LLMs yang dipimpin oleh GPT berdasarkan teknologi Transformer(, ada tiga langkah yang harus diikuti.
Sebelum pelatihan, karena berbasis Transformer, konverter perlu mengubah masukan teks menjadi nilai, proses ini disebut "Tokenization", setelah itu nilai-nilai ini disebut Token. Dalam aturan praktis umum, satu kata atau karakter dalam bahasa Inggris dapat secara kasar dianggap sebagai satu Token, sementara setiap karakter Han dapat secara kasar dianggap sebagai dua Token. Ini juga merupakan satuan dasar yang digunakan untuk penetapan harga GPT.
Langkah pertama, pre-training. Dengan memberikan cukup banyak pasangan data ke lapisan input, mirip dengan contoh yang diberikan di bagian pertama laporan )X,Y(, untuk mencari parameter terbaik dari setiap neuron di bawah model ini, pada saat ini diperlukan banyak data, dan proses ini juga merupakan proses yang paling memakan daya komputasi, karena harus mengulangi iterasi neuron mencoba berbagai parameter. Setelah satu batch pasangan data selesai dilatih, biasanya akan menggunakan batch data yang sama untuk pelatihan kedua untuk mengiterasi parameter.
Langkah kedua, fine-tuning. Fine-tuning adalah memberikan sejumlah kecil data, tetapi dengan kualitas yang sangat tinggi, untuk melatih, perubahan semacam ini akan membuat keluaran model memiliki kualitas yang lebih tinggi, karena pre-training membutuhkan banyak data, tetapi banyak data mungkin mengandung kesalahan atau kualitas rendah. Langkah fine-tuning dapat meningkatkan kualitas model melalui data berkualitas tinggi.
Langkah ketiga, pembelajaran penguatan. Pertama, akan dibangun sebuah model baru yang kami sebut "model penghargaan", tujuan model ini sangat sederhana, yaitu untuk mengurutkan hasil keluaran, sehingga implementasi model ini akan cukup sederhana, karena skenario bisnisnya cukup vertikal. Setelah itu, model ini digunakan untuk menentukan apakah keluaran dari model besar kami berkualitas tinggi, sehingga kami dapat menggunakan model penghargaan untuk secara otomatis mengiterasi parameter model besar. ) Namun, kadang-kadang juga diperlukan partisipasi manusia untuk menilai kualitas keluaran model (.
Singkatnya, dalam proses pelatihan model besar, pra-pelatihan memiliki tuntutan yang sangat tinggi terhadap jumlah data, dan daya komputasi GPU yang diperlukan juga paling banyak, sementara fine-tuning membutuhkan data berkualitas lebih tinggi untuk memperbaiki parameter, dan pembelajaran penguatan dapat mengiterasi parameter secara berulang melalui model penghargaan untuk menghasilkan hasil yang lebih berkualitas.
Selama proses pelatihan, semakin banyak parameter yang ada, semakin tinggi batas kemampuan generalisasinya. Misalnya, dalam contoh fungsi Y = aX + b, sebenarnya ada dua neuron X dan X0, sehingga perubahan parameter sangat terbatas dalam data yang dapat diusulkan, karena pada dasarnya tetap merupakan garis lurus. Jika neuron semakin banyak, maka lebih banyak parameter dapat diiterasi, dan lebih banyak data dapat diusulkan. Inilah sebabnya mengapa model besar menghasilkan keajaiban, dan juga alasan mengapa sering disebut model besar, pada dasarnya adalah sejumlah besar neuron dan parameter, serta sejumlah besar data, sambil memerlukan daya komputasi yang besar.
Oleh karena itu, kinerja model besar terutama dipengaruhi oleh tiga aspek: jumlah parameter, jumlah dan kualitas data, serta daya komputasi. Ketiga faktor ini secara bersama-sama mempengaruhi kualitas hasil dan kemampuan generalisasi model besar. Kita anggap jumlah parameter adalah p, jumlah data adalah n) dihitung berdasarkan jumlah Token(, maka kita dapat menghitung jumlah komputasi yang diperlukan melalui aturan empiris umum, sehingga kita dapat memperkirakan jumlah daya komputasi yang perlu dibeli serta waktu pelatihan.
Kekuatan komputasi umumnya diukur dalam Flops sebagai satuan dasar, yang mewakili satu operasi floating-point. Operasi floating-point adalah istilah umum untuk penjumlahan, pengurangan, perkalian, dan pembagian nilai non-integer, seperti 2.5 + 3.557. Floating-point menunjukkan kemampuan untuk memiliki angka desimal, sedangkan FP16 mewakili presisi yang mendukung angka desimal, dan FP32 adalah presisi yang lebih umum. Berdasarkan aturan praktis yang telah terbukti, pra-pelatihan