Son dönemde AI sektöründeki gelişmeler bazı insanlar tarafından dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı, tahminlere göre GPT, Amerika'da yaklaşık %20'lik bir iş verimliliği artışı sağladı. Büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul ediliyor, geçmişteki kesin kod tasarımı, daha genelleştirilmiş büyük model çerçevelerinin yazılıma entegre edilmesiyle değişiyor ve bu da yazılımın daha iyi performans göstermesine ve daha geniş modal giriş ve çıkışlarını desteklemesine olanak tanıyor. Derin öğrenme teknolojisi gerçekten de AI sektörüne dördüncü bir refah dönemi getirdi, bu dalga kripto para sektörünü de etkiledi.
Bu rapor, AI sektörünün gelişim tarihini, teknolojik sınıflandırmasını ve derin öğrenme teknolojisinin sektöre etkisini ayrıntılı olarak inceleyecektir. Ardından, derin öğrenmedeki GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin üst ve alt kısımlarını ve bunların gelişim durumu ile trendlerini derinlemesine analiz edecektir. Daha sonra, Crypto ile AI sektörleri arasındaki ilişkiyi esasen inceleyerek, Crypto ile ilgili AI endüstri zincirinin yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'lerden itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve sanayi dünyası farklı dönemlerde ve farklı disiplin arka planlarında yapay zekayı gerçekleştirmenin çeşitli akımlarını geliştirmiştir.
Modern yapay zeka teknolojisi esas olarak "makine öğrenimi" terimini kullanmaktadır. Bu teknolojinin temel prensibi, makinelerin veriler aracılığıyla görevlerde sürekli olarak iterasyon yaparak sistem performansını iyileştirmesidir. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verilerin modelin eğitimi için kullanılması, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini yerine getirmesi için kullanılmasıdır.
Şu anda makine öğreniminde üç ana akım bulunmaktadır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insan sinir sistemi, düşünce ve davranışını taklit etmektedir.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinen ( ile öne çıkıyor. Bunun başlıca nedeni, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve birçok gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri modellemek için yeterli fırsat sunar. Veri girişi sayesinde, nöronların parametrelerini sürekli olarak ayarlayabiliriz. Nihayetinde birçok veri ile deneyimlenmiş bu nöron, en iyi duruma ulaşacaktır ) parametre (, bu da "derinlik" kelimesinin kökenidir - yeterince katman ve nöron sayısı.
![Yeni Başlayanlar için Bilgilendirme丨AI x Kripto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Basit bir şekilde ifade etmek gerekirse, bir fonksiyon oluşturulmuştur. Bu fonksiyona X=2 girdiğinde Y=3; X=3 girdiğinde Y=5 çıkıyor. Eğer bu fonksiyonun tüm X değerlerine cevap vermesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X - 1 olarak oluşturulabilir. Ancak, X=2, Y=11 olan bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon oluşturmak gerekir. GPU kullanarak yapılan kaba kuvvet denemeleri sonucunda Y = X² - 3X + 5 formülü daha uygun bulunmuştur. Ancak verilerle tamamen örtüşmesi gerekmiyor, sadece dengeyi koruması ve kabaca benzer bir çıktı vermesi yeterlidir. Burada X², X ve X₀ farklı sinir hücrelerini temsil ederken, 1, -3 ve 5 ise onların parametreleridir.
Bu durumda, eğer sinir ağına büyük miktarda veri girersek, yeni verileri uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyum sağlayabiliriz.
Sinir ağına dayalı derin öğrenme teknolojisi de birçok teknik iterasyon ve evrim geçirmiştir. Bunlar arasında en erken dönem sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN ve en son modern büyük modellerden biri olan GPT gibi Transformer teknolojisi bulunmaktadır. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve bir dönüştürücü eklemiştir ) Transformer (, tüm modları ), yani ses, video, resim gibi verileri, karşılık gelen sayısal değerlerle temsil etmek için kodlamak amacıyla kullanılmaktadır. Daha sonra bu veriler sinir ağına aktarılır, böylece sinir ağı her türlü veriyi modelleyebilir, yani çok modlu hale gelir.
Yapay zeka gelişimi üç teknik dalgadan geçti, ilk dalga 1960'lı yıllarda, yapay zeka teknolojisinin ortaya çıkmasının on yıl sonrasında gerçekleşti, bu dalga sembolist teknolojinin gelişimiyle tetiklendi, bu teknoloji genel doğal dil işleme ve insan-bilgisayar diyalogları sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu, bu, Stanford Üniversitesi'nin Amerika Birleşik Devletleri Ulusal Havacılık ve Uzay Dairesi'nin teşvikiyle tamamlanan DENRAL uzman sistemidir, bu sistem oldukça güçlü kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretmektedir, bu kimya uzmanı sistemi kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak değerlendirilebilir.
Uzman sistemlerinden sonra, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl(, Bayes ağını, diğer adıyla inanç ağı olarak bilinen yapıyı önerdi. Aynı dönemde, Brooks, davranışa dayalı robotik alanında bir yaklaşım sundu ve bu, davranışçılığın doğuşunu simgeliyor.
1997'de, IBM'in derin mavi "Blue" 3.5:2.5 skorla satranç şampiyonu Kasparov'u )Kasparov( yendi, bu zafer yapay zekanın bir dönüm noktası olarak görülüyor ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını yapı olarak kullanan ve veriler üzerinde temsili öğrenme yapan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrimleşti; bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu da bağlantıcıcılığın zirve dönemiydi.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, IBM'in Watson'ı )Jeopardy( bilgi yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN) yani Üretken Rekabetçi Ağlar (Generative Adversarial Network() önerdi. İki sinir ağının birbirleriyle rekabet ederek öğrenmelerini sağlayarak, gerçek gibi görünen fotoğraflar oluşturabilir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Deep Learning" adlı bir kitap da yazdı, bu kitaba çiçek kitabı (flower book) denir.
2015 yılında, Hinton ve diğerleri "Nature" dergisinde derin öğrenme algoritmasını önerdiler, bu derin öğrenme yönteminin önerilmesi, hemen akademik çevrelerde ve sanayide büyük yankı uyandırdı.
2015 yılında, OpenAI kuruldu, Musk, Y Combinator başkanı Altman, melek yatırımcı Peter Thiel) ve diğerleri 1 milyar dolar ortak yatırım yaptıklarını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünyası şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla kazandı.
2017 yılında, Hong Kong'daki Hanson Robotics (Hanson Robotics) tarafından geliştirilen insansı robot Sophia, tarih boyunca birinci sınıf vatandaşlık statüsü kazanan ilk robot olarak kabul edilmekte, zengin yüz ifadeleri ve insan dilini anlama yeteneğine sahiptir.
2017 yılında, yapay zeka alanında zengin bir yetenek ve teknoloji birikimine sahip olan Google, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritmasına dayalı olan GPT(Generative Pre-trained Transformer)'ı piyasaya sürdü, bu da o zamanın en büyük dil modellerinden biriydi.
2018 yılında, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu piyasaya sürdü ve bu, protein yapısı tahmini yapabilme yeteneği ile yapay zeka alanında büyük bir ilerleme işareti olarak kabul edildi.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2 modelini yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahiptir ve önceki sürüm GPT-2'den 100 kat daha yüksektir. Bu model, 570 GB metin kullanarak eğitim almış ve çok sayıda NLP( doğal dil işleme) görevlerinde( yanıt verme, çeviri yapma, makale yazma) konularında en ileri düzeyde performans sergileyebilmektedir.
2021 yılında, OpenAI GPT-4'ü yayımladı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 yılının Ocak ayında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihin en hızlı bir milyar kullanıcıya ulaşan uygulaması oldu.
2024'te OpenAI, GPT-4 omni'yi piyasaya sürecek.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dillerinin hepsi, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT liderliğindeki büyük modeller, yapay zeka alanında bir dalga yaratmış ve bu alana büyük bir oyuncu akını olmuştur. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patlak verdiğini görüyoruz. Bu nedenle, raporun bu bölümünde derin öğrenme algoritmalarının endüstri zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hakim olduğu yapay zeka endüstrisinde, yukarı ve aşağı akış nasıl oluşmaktadır ve yukarı ve aşağı akışın mevcut durumu, arz-talep ilişkisi ile gelecekteki gelişimi nasıldır.
Öncelikle netleştirmemiz gereken, Transformer teknolojisine dayalı GPT'nin öncüsü olduğu LLM'lerin ( büyük modelinin ) eğitimi sırasında toplam üç adımın olduğu.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir, bu işleme "Tokenizasyon" denir, ardından bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak kabul edilebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu da GPT'nin fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örneği verilen (X,Y) gibi, bu modeldeki her bir nöronun en iyi parametrelerini bulmak. Bu aşamada büyük miktarda veriye ihtiyaç var ve bu süreç, nöronları çeşitli parametreleri denemek için tekrar tekrar döngüye soktuğundan, en fazla hesaplama gücünü tüketen süreçtir. Bir veri çifti eğitim tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az ancak çok yüksek kaliteli bir veri kümesi ile eğitim vermektir; bu tür bir değişim, modelin çıktısının daha yüksek kalitede olmasını sağlar, çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, yüksek kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit, yani çıktının sonuçlarını sıralamaktır, bu nedenle bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece bir ödül modeli kullanarak büyük modelin parametrelerini otomatik olarak yineleyebiliriz. ( Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan katılımı da gereklidir )
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verinin miktarı için çok yüksek gereksinimlere sahiptir, gereken GPU hesap gücü de en fazlasıdır. İnce ayar ise parametreleri iyileştirmek için daha yüksek kaliteli verilere ihtiyaç duyar. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar elde etmek için parametreleri tekrar tekrar yinelemek amacıyla bir ödül modeli aracılığıyla yapılabilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, fonksiyon örneğinde Y = aX + b olduğunda, aslında iki nöron vardır: X ve X0. Bu nedenle, parametreler nasıl değişirse değişsin, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğru çizgidir. Eğer nöron sayısı artarsa, daha fazla parametre iterasyon yapabilir ve daha fazla veriyi uyum sağlayabilir. İşte bu yüzden büyük modellerin büyük mucizeler yarattığı söyleniyor ve bu da büyük model olarak adlandırılmasının nedenidir; özünde devasa nöronlar ve parametreler, devasa veriler ve aynı zamanda devasa hesaplama gücü gerekmektedir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortaklaşa etkiler. Parametre sayısını p, veri miktarını n( token sayısı ile hesaplayarak, gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz; böylece, ihtiyaç duyduğumuz hesaplama gücü ve eğitim süresini kabaca tahmin edebiliriz.
Hesaplama gücü genellikle Flops cinsinden ölçülür ve bir floating point işlemini temsil eder. Floating point işlemleri, tam sayılar olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır; örneğin, 2.5 + 3.557. Floating point, ondalık sayıların kullanılmasını ifade ederken, FP16 ondalık hassasiyeti destekler, FP32 ise daha yaygın olarak kullanılan bir hassasiyettir. Uygulamada elde edilen deneyim kuralına göre, önceden eğitilmiş
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
21 Likes
Reward
21
4
Share
Comment
0/400
BearMarketSunriser
· 07-28 01:17
Açıkçası, kripto para trade yapan herkes AI'nın onları uçurmasını bekliyor.
View OriginalReply0
FloorSweeper
· 07-25 20:05
pssh... tipik kağıt ellerin ai hype'ına fomo yapması... bu döngüyü daha önce gördüm
View OriginalReply0
MindsetExpander
· 07-25 13:44
Aha, kodlar büyük model tarafından mı değiştirildi?
View OriginalReply0
CryptoNomics
· 07-25 13:43
%20 verimlilik iddianız istatistiksel bir titizlikten yoksun... önce düzgün bir regresyon analizi yapın, smh
AI ve şifreleme teknolojisinin entegrasyonu: Gelişim sürecinden endüstri zincirine kapsamlı analiz
AI x Kripto: Sıfırdan Zirveye
Giriş
Son dönemde AI sektöründeki gelişmeler bazı insanlar tarafından dördüncü sanayi devrimi olarak görülüyor. Büyük modellerin ortaya çıkışı, çeşitli sektörlerde verimliliği önemli ölçüde artırdı, tahminlere göre GPT, Amerika'da yaklaşık %20'lik bir iş verimliliği artışı sağladı. Büyük modellerin getirdiği genelleme yeteneği, yeni bir yazılım tasarım paradigması olarak kabul ediliyor, geçmişteki kesin kod tasarımı, daha genelleştirilmiş büyük model çerçevelerinin yazılıma entegre edilmesiyle değişiyor ve bu da yazılımın daha iyi performans göstermesine ve daha geniş modal giriş ve çıkışlarını desteklemesine olanak tanıyor. Derin öğrenme teknolojisi gerçekten de AI sektörüne dördüncü bir refah dönemi getirdi, bu dalga kripto para sektörünü de etkiledi.
Bu rapor, AI sektörünün gelişim tarihini, teknolojik sınıflandırmasını ve derin öğrenme teknolojisinin sektöre etkisini ayrıntılı olarak inceleyecektir. Ardından, derin öğrenmedeki GPU, bulut bilişim, veri kaynakları, kenar cihazları gibi endüstri zincirinin üst ve alt kısımlarını ve bunların gelişim durumu ile trendlerini derinlemesine analiz edecektir. Daha sonra, Crypto ile AI sektörleri arasındaki ilişkiyi esasen inceleyerek, Crypto ile ilgili AI endüstri zincirinin yapısını gözden geçirecektir.
AI sektörünün gelişim tarihi
AI endüstrisi 1950'lerden itibaren başlamış olup, yapay zekanın vizyonunu gerçekleştirmek için akademik ve sanayi dünyası farklı dönemlerde ve farklı disiplin arka planlarında yapay zekayı gerçekleştirmenin çeşitli akımlarını geliştirmiştir.
Modern yapay zeka teknolojisi esas olarak "makine öğrenimi" terimini kullanmaktadır. Bu teknolojinin temel prensibi, makinelerin veriler aracılığıyla görevlerde sürekli olarak iterasyon yaparak sistem performansını iyileştirmesidir. Ana adımlar, verilerin algoritmaya gönderilmesi, bu verilerin modelin eğitimi için kullanılması, modelin test edilip dağıtılması ve modelin otomatik tahmin görevlerini yerine getirmesi için kullanılmasıdır.
Şu anda makine öğreniminde üç ana akım bulunmaktadır: bağlantıcılık, sembolistlik ve davranışçılık; bunlar sırasıyla insan sinir sistemi, düşünce ve davranışını taklit etmektedir.
Şu anda sinir ağlarıyla temsil edilen bağlantıcılık, derin öğrenme olarak da bilinen ( ile öne çıkıyor. Bunun başlıca nedeni, bu mimarinin bir giriş katmanı, bir çıkış katmanı ve birçok gizli katmana sahip olmasıdır. Katman sayısı ve nöron ) parametre ( sayısı yeterince fazla olduğunda, karmaşık genel görevleri modellemek için yeterli fırsat sunar. Veri girişi sayesinde, nöronların parametrelerini sürekli olarak ayarlayabiliriz. Nihayetinde birçok veri ile deneyimlenmiş bu nöron, en iyi duruma ulaşacaktır ) parametre (, bu da "derinlik" kelimesinin kökenidir - yeterince katman ve nöron sayısı.
![Yeni Başlayanlar için Bilgilendirme丨AI x Kripto: Sıfırdan Zirveye])https://img-cdn.gateio.im/webp-social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c.webp(
Basit bir şekilde ifade etmek gerekirse, bir fonksiyon oluşturulmuştur. Bu fonksiyona X=2 girdiğinde Y=3; X=3 girdiğinde Y=5 çıkıyor. Eğer bu fonksiyonun tüm X değerlerine cevap vermesini istiyorsak, bu fonksiyonun derecesini ve parametrelerini sürekli olarak eklememiz gerekir. Örneğin, bu koşulu sağlayan bir fonksiyon Y = 2X - 1 olarak oluşturulabilir. Ancak, X=2, Y=11 olan bir veri varsa, bu üç veri noktasına uygun yeni bir fonksiyon oluşturmak gerekir. GPU kullanarak yapılan kaba kuvvet denemeleri sonucunda Y = X² - 3X + 5 formülü daha uygun bulunmuştur. Ancak verilerle tamamen örtüşmesi gerekmiyor, sadece dengeyi koruması ve kabaca benzer bir çıktı vermesi yeterlidir. Burada X², X ve X₀ farklı sinir hücrelerini temsil ederken, 1, -3 ve 5 ise onların parametreleridir.
Bu durumda, eğer sinir ağına büyük miktarda veri girersek, yeni verileri uyum sağlamak için nöronları artırabilir ve parametreleri yineleyebiliriz. Böylece tüm verileri uyum sağlayabiliriz.
Sinir ağına dayalı derin öğrenme teknolojisi de birçok teknik iterasyon ve evrim geçirmiştir. Bunlar arasında en erken dönem sinir ağları, ileri beslemeli sinir ağları, RNN, CNN, GAN ve en son modern büyük modellerden biri olan GPT gibi Transformer teknolojisi bulunmaktadır. Transformer teknolojisi, sinir ağlarının bir evrim yönüdür ve bir dönüştürücü eklemiştir ) Transformer (, tüm modları ), yani ses, video, resim gibi verileri, karşılık gelen sayısal değerlerle temsil etmek için kodlamak amacıyla kullanılmaktadır. Daha sonra bu veriler sinir ağına aktarılır, böylece sinir ağı her türlü veriyi modelleyebilir, yani çok modlu hale gelir.
Yapay zeka gelişimi üç teknik dalgadan geçti, ilk dalga 1960'lı yıllarda, yapay zeka teknolojisinin ortaya çıkmasının on yıl sonrasında gerçekleşti, bu dalga sembolist teknolojinin gelişimiyle tetiklendi, bu teknoloji genel doğal dil işleme ve insan-bilgisayar diyalogları sorunlarını çözdü. Aynı dönemde, uzman sistemler doğdu, bu, Stanford Üniversitesi'nin Amerika Birleşik Devletleri Ulusal Havacılık ve Uzay Dairesi'nin teşvikiyle tamamlanan DENRAL uzman sistemidir, bu sistem oldukça güçlü kimya bilgisine sahiptir, sorular aracılığıyla çıkarım yaparak kimya uzmanıyla aynı cevapları üretmektedir, bu kimya uzmanı sistemi kimya bilgi tabanı ve çıkarım sisteminin birleşimi olarak değerlendirilebilir.
Uzman sistemlerinden sonra, 1990'larda İsrailli Amerikalı bilim insanı ve filozof Judea Pearl(, Bayes ağını, diğer adıyla inanç ağı olarak bilinen yapıyı önerdi. Aynı dönemde, Brooks, davranışa dayalı robotik alanında bir yaklaşım sundu ve bu, davranışçılığın doğuşunu simgeliyor.
1997'de, IBM'in derin mavi "Blue" 3.5:2.5 skorla satranç şampiyonu Kasparov'u )Kasparov( yendi, bu zafer yapay zekanın bir dönüm noktası olarak görülüyor ve AI teknolojisi ikinci gelişim zirvesine ulaştı.
Üçüncü AI teknolojisi dalgası 2006 yılında gerçekleşti. Derin öğrenmenin üç büyük ismi Yann LeCun, Geoffrey Hinton ve Yoshua Bengio, yapay sinir ağlarını yapı olarak kullanan ve veriler üzerinde temsili öğrenme yapan bir algoritma olan derin öğrenme kavramını ortaya koydular. Daha sonra derin öğrenme algoritmaları, RNN, GAN'dan Transformer ve Stable Diffusion'a kadar evrimleşti; bu iki algoritma, bu üçüncü teknolojik dalgayı şekillendirdi ve bu da bağlantıcıcılığın zirve dönemiydi.
Derin öğrenme teknolojisinin keşfi ve evrimi ile birlikte birçok ikonik olay da ortaya çıkmaya başladı, bunlar arasında:
2011 yılında, IBM'in Watson'ı )Jeopardy( bilgi yarışmasında insanları yenerek şampiyon oldu.
2014 yılında, Goodfellow GAN) yani Üretken Rekabetçi Ağlar (Generative Adversarial Network() önerdi. İki sinir ağının birbirleriyle rekabet ederek öğrenmelerini sağlayarak, gerçek gibi görünen fotoğraflar oluşturabilir. Aynı zamanda Goodfellow, derin öğrenme alanında önemli bir başlangıç kitabı olan "Deep Learning" adlı bir kitap da yazdı, bu kitaba çiçek kitabı (flower book) denir.
2015 yılında, Hinton ve diğerleri "Nature" dergisinde derin öğrenme algoritmasını önerdiler, bu derin öğrenme yönteminin önerilmesi, hemen akademik çevrelerde ve sanayide büyük yankı uyandırdı.
2015 yılında, OpenAI kuruldu, Musk, Y Combinator başkanı Altman, melek yatırımcı Peter Thiel) ve diğerleri 1 milyar dolar ortak yatırım yaptıklarını açıkladı.
2016 yılında, derin öğrenme teknolojisine dayanan AlphaGo, Go dünyası şampiyonu ve profesyonel dokuzuncu dan oyuncusu Lee Sedol ile Go insan-makine savaşına girdi ve toplamda 4-1'lik bir skorla kazandı.
2017 yılında, Hong Kong'daki Hanson Robotics (Hanson Robotics) tarafından geliştirilen insansı robot Sophia, tarih boyunca birinci sınıf vatandaşlık statüsü kazanan ilk robot olarak kabul edilmekte, zengin yüz ifadeleri ve insan dilini anlama yeteneğine sahiptir.
2017 yılında, yapay zeka alanında zengin bir yetenek ve teknoloji birikimine sahip olan Google, "Attention is all you need" başlıklı bir makale yayınlayarak Transformer algoritmasını tanıttı ve büyük ölçekli dil modelleri ortaya çıkmaya başladı.
2018'de OpenAI, Transformer algoritmasına dayalı olan GPT(Generative Pre-trained Transformer)'ı piyasaya sürdü, bu da o zamanın en büyük dil modellerinden biriydi.
2018 yılında, Google ekibi Deepmind, derin öğrenmeye dayalı AlphaGo'yu piyasaya sürdü ve bu, protein yapısı tahmini yapabilme yeteneği ile yapay zeka alanında büyük bir ilerleme işareti olarak kabul edildi.
2019'da OpenAI, 1.5 milyar parametreye sahip GPT-2 modelini yayınladı.
2020 yılında, OpenAI tarafından geliştirilen GPT-3, 175 milyar parametreye sahiptir ve önceki sürüm GPT-2'den 100 kat daha yüksektir. Bu model, 570 GB metin kullanarak eğitim almış ve çok sayıda NLP( doğal dil işleme) görevlerinde( yanıt verme, çeviri yapma, makale yazma) konularında en ileri düzeyde performans sergileyebilmektedir.
2021 yılında, OpenAI GPT-4'ü yayımladı, bu model 1.76 trilyon parametreye sahip olup, GPT-3'ün 10 katıdır.
2023 yılının Ocak ayında GPT-4 modeline dayalı ChatGPT uygulaması piyasaya sürüldü, Mart ayında ChatGPT bir milyar kullanıcıya ulaştı ve tarihin en hızlı bir milyar kullanıcıya ulaşan uygulaması oldu.
2024'te OpenAI, GPT-4 omni'yi piyasaya sürecek.
Derin Öğrenme Endüstri Zinciri
Mevcut büyük model dillerinin hepsi, sinir ağına dayalı derin öğrenme yöntemlerini kullanmaktadır. GPT liderliğindeki büyük modeller, yapay zeka alanında bir dalga yaratmış ve bu alana büyük bir oyuncu akını olmuştur. Ayrıca, veriye ve hesaplama gücüne olan talebin büyük ölçüde patlak verdiğini görüyoruz. Bu nedenle, raporun bu bölümünde derin öğrenme algoritmalarının endüstri zincirini keşfetmeye odaklanıyoruz. Derin öğrenme algoritmalarının hakim olduğu yapay zeka endüstrisinde, yukarı ve aşağı akış nasıl oluşmaktadır ve yukarı ve aşağı akışın mevcut durumu, arz-talep ilişkisi ile gelecekteki gelişimi nasıldır.
Öncelikle netleştirmemiz gereken, Transformer teknolojisine dayalı GPT'nin öncüsü olduğu LLM'lerin ( büyük modelinin ) eğitimi sırasında toplam üç adımın olduğu.
Eğitimden önce, Transformer tabanlı olduğu için, dönüştürücünün metin girişini sayılara dönüştürmesi gerekir, bu işleme "Tokenizasyon" denir, ardından bu sayılara Token denir. Genel bir kural olarak, bir İngilizce kelime veya karakter kabaca bir Token olarak kabul edilebilirken, her bir Çince karakter kabaca iki Token olarak değerlendirilebilir. Bu da GPT'nin fiyatlandırmasında kullanılan temel birimdir.
İlk adım, ön eğitim. Giriş katmanına yeterince veri çifti vererek, raporun ilk bölümünde örneği verilen (X,Y) gibi, bu modeldeki her bir nöronun en iyi parametrelerini bulmak. Bu aşamada büyük miktarda veriye ihtiyaç var ve bu süreç, nöronları çeşitli parametreleri denemek için tekrar tekrar döngüye soktuğundan, en fazla hesaplama gücünü tüketen süreçtir. Bir veri çifti eğitim tamamlandıktan sonra, genellikle aynı veri kümesi ile parametreleri yinelemek için ikinci bir eğitim yapılır.
İkinci adım, ince ayar. İnce ayar, daha az ancak çok yüksek kaliteli bir veri kümesi ile eğitim vermektir; bu tür bir değişim, modelin çıktısının daha yüksek kalitede olmasını sağlar, çünkü ön eğitim büyük miktarda veri gerektirir, ancak birçok veri hatalı veya düşük kaliteli olabilir. İnce ayar adımı, yüksek kaliteli verilerle modelin kalitesini artırabilir.
Üçüncü adım, pekiştirmeli öğrenme. Öncelikle tamamen yeni bir model oluşturulacak, buna "ödül modeli" diyoruz, bu modelin amacı oldukça basit, yani çıktının sonuçlarını sıralamaktır, bu nedenle bu modeli gerçekleştirmek oldukça kolaydır, çünkü iş senaryosu oldukça dikeydir. Daha sonra bu modeli, büyük modelimizin çıktısının yüksek kaliteli olup olmadığını belirlemek için kullanacağız, böylece bir ödül modeli kullanarak büyük modelin parametrelerini otomatik olarak yineleyebiliriz. ( Ancak bazen modelin çıktısının kalitesini değerlendirmek için insan katılımı da gereklidir )
Kısacası, büyük modellerin eğitim sürecinde, ön eğitim verinin miktarı için çok yüksek gereksinimlere sahiptir, gereken GPU hesap gücü de en fazlasıdır. İnce ayar ise parametreleri iyileştirmek için daha yüksek kaliteli verilere ihtiyaç duyar. Pekiştirmeli öğrenme, daha yüksek kaliteli sonuçlar elde etmek için parametreleri tekrar tekrar yinelemek amacıyla bir ödül modeli aracılığıyla yapılabilir.
Eğitim sürecinde, parametre sayısı arttıkça genelleme yeteneğinin tavanı da yükselir. Örneğin, fonksiyon örneğinde Y = aX + b olduğunda, aslında iki nöron vardır: X ve X0. Bu nedenle, parametreler nasıl değişirse değişsin, uyum sağlayabileceği veriler son derece sınırlıdır, çünkü özünde hala bir doğru çizgidir. Eğer nöron sayısı artarsa, daha fazla parametre iterasyon yapabilir ve daha fazla veriyi uyum sağlayabilir. İşte bu yüzden büyük modellerin büyük mucizeler yarattığı söyleniyor ve bu da büyük model olarak adlandırılmasının nedenidir; özünde devasa nöronlar ve parametreler, devasa veriler ve aynı zamanda devasa hesaplama gücü gerekmektedir.
Bu nedenle, büyük modelin performansını etkileyen başlıca üç unsur vardır: parametre sayısı, veri miktarı ve kalitesi, hesaplama gücü. Bu üçü, büyük modelin sonuç kalitesini ve genelleme yeteneğini ortaklaşa etkiler. Parametre sayısını p, veri miktarını n( token sayısı ile hesaplayarak, gerekli hesaplama miktarını genel bir deneysel kural ile hesaplayabiliriz; böylece, ihtiyaç duyduğumuz hesaplama gücü ve eğitim süresini kabaca tahmin edebiliriz.
Hesaplama gücü genellikle Flops cinsinden ölçülür ve bir floating point işlemini temsil eder. Floating point işlemleri, tam sayılar olmayan sayıların toplama, çıkarma, çarpma ve bölme işlemlerinin genel adıdır; örneğin, 2.5 + 3.557. Floating point, ondalık sayıların kullanılmasını ifade ederken, FP16 ondalık hassasiyeti destekler, FP32 ise daha yaygın olarak kullanılan bir hassasiyettir. Uygulamada elde edilen deneyim kuralına göre, önceden eğitilmiş