AI alanındaki "yüz model savaşı": mühendislik sorunu mu yoksa bilimsel bir meydan okuma mı?
Geçen ay, AI endüstrisinde bir "hayvanlar savaşı" başladı.
Bir taraf, Meta'nın piyasaya sürdüğü Llama modelidir; açık kaynak özelliği nedeniyle geliştiriciler arasında popülerdir. Japonya'daki bir şirket, Llama makalesini ve kaynak kodunu inceledikten sonra, Japonca versiyonu ChatGPT'yi hızla geliştirerek Japonya'nın AI darboğazı sorununu çözmüştür.
Diğer taraf, Falcon adını taşıyan büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldü ve Llama’yı geride bırakarak açık kaynaklı LLM sıralamasında zirveye çıktı. Bu sıralama, açık kaynak model topluluğu tarafından hazırlanmış olup, LLM yeteneklerini değerlendirmek için bir standart sunmaktadır. Sıralama esasen Llama ve Falcon'un sırayla yer aldığı bir liste gibidir.
Llama 2'nin piyasaya sürülmesinin ardından, Llama serisi geçici olarak önde; ancak Eylül ayının başında, Falcon 180B versiyonunu tanıttı ve tekrar daha yüksek bir sıralama elde etti.
İlginçtir ki, Falcon'un geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dhabi'deki Teknoloji İnovasyon Araştırma Merkezi'dir. BAE hükümeti, "Bu alanda yer almamızın sebebi ana oyuncuları sarsmaktır" dedi.
Falcon 180B'nin piyasaya sürülmesinin ertesi günü, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, "TIME dergisi" tarafından seçilen "Yapay Zeka alanındaki en etkili 100 kişi" arasına girdi; onunla birlikte "Yapay Zeka babası" Hinton, OpenAI'nin Altman'ı gibi isimler de seçildi.
Artık, AI alanı bir çok sesin yarıştığı bir aşamaya girmiştir: belirli bir mali güce sahip olan ülkeler ve şirketler, kendi büyük dil modellerini yaratma peşindedir. Körfez ülkeleri arasında birden fazla katılımcı bulunmaktadır - Ağustos ayında, Suudi Arabistan, yerel üniversiteler için LLM eğitimi amacıyla 3000'den fazla H100 çipi satın aldı.
Bir yatırımcı şunları söyledi: "O zamanlar internetin iş modeli inovasyonunu küçümsemiştim, engel yoktu: yüzlerce takım savaşları, yüzlerce araba savaşları, yüzlerce yayın savaşları; sert teknoloji büyük model girişimlerinin hala yüzlerce model savaşı olduğunu hiç düşünmemiştim..."
Zor bir yüksek teknoloji olması gerekirken, nasıl oldu da bir ülke bir model, dönüm başına on bin kilo bir durum haline geldi?
Transformer Dünyayı Yutuyor
Amerika'daki girişimciler, Çinli teknoloji devleri ve Orta Doğu petrol baronları büyük modelleri takip edebiliyor, hepsi o ünlü makaleye borçlu: "Attention Is All You Need."
2017'de, 8 Google bilgisayar bilimci bu makalede Transformer algoritmasını tüm dünyaya açıkladı. Bu, yapay zeka tarihinin en çok atıfta bulunulan üçüncü makalesidir, Transformer'ın ortaya çıkışı bu AI dalgasını ateşledi.
Şu anda tüm büyük modeller, dünya çapında büyük yankı uyandıran GPT serisi de dahil olmak üzere, Transformer temelinde inşa edilmiştir.
Daha önce, "makinelere okumayı öğretmek" kabul gören bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak okurlar.
Erken sinir ağlarının girişi birbirinden bağımsızdı, uzun metinleri veya tam makaleleri anlayamıyordu, bu da "开水间" ifadesinin "open water room" olarak tercüme edilmesi gibi sorunlara yol açıyordu.
2014'te, Google'da çalıştıktan sonra OpenAI'ye geçen bilgisayar bilimci Ilya, öncü bir başarı elde etti. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerinin önüne geçirdi.
RNN, her nöronun hem mevcut girişi hem de bir önceki zaman dilimindeki girişi almasını sağlayan "döngüsel tasarım"ı önerir ve sinir ağlarına "bağlamı birleştirme" yeteneği kazandırır.
RNN'nin ortaya çıkışı akademik dünyada araştırma heyecanını tetikledi, daha sonra Transformer makalesinin yazarı Şazel de derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi sorunları olduğunu keşfettiler:
Bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözmesine rağmen, çalışma verimliliği yüksek değil ve çok sayıda parametreyi işlemek zor.
RNN'nin karmaşık tasarımı, kısa sürede Shazelle'i sıkmaya başladı. Bu nedenle 2015'ten itibaren Shazelle ve 7 benzer düşünen kişi, RNN alternatifleri geliştirmeye başladılar ve nihai sonuç Transformer oldu.
RNN ile karşılaştırıldığında, Transformer'ın iki büyük devrimi var:
Birincisi, konum kodlamasını RNN'nin döngüsel tasarımının yerine koymak, paralel hesaplamayı gerçekleştirmek - bu, Transformer'ın eğitim verimliliğini büyük ölçüde artırdı ve devasa verileri işleyebilmesini sağladı, AI'yı büyük model çağlarına taşıdı; ikincisi, bağlam yeteneğini daha da güçlendirmek.
Transformer birçok eksikliği bir anda çözdükten sonra, giderek NLP( doğal dil işleme) için baskın bir çözüm haline geldi ve "Transformer doğmazsa, NLP sonsuz bir gece gibi olur" hissi uyandırıyor. Hatta İlyia, kendi yarattığı RNN'den vazgeçip Transformer'a yöneldi.
Başka bir deyişle, Transformer günümüzün tüm büyük modellerinin atasıdır; büyük modelleri teorik araştırmadan tamamen mühendislik sorununa dönüştürmüştür.
2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirdi ve akademik dünyayı bir hayli etkiledi. Buna yanıt olarak, Google hızla daha güçlü bir AI modeli olan Meena'yı piyasaya sürdü.
GPT-2 ile karşılaştırıldığında, Meena'nın temel algoritmasında bir yenilik yoktur, sadece eğitim parametreleri 8.5 kat artmış ve hesaplama gücü 14 kat artmıştır. Transformer makalesinin yazarı Szegedy, bu tür bir "şiddetli yığma" karşısında büyük bir şok yaşamış ve hemen "Meena dünyayı yutuyor" başlıklı bir not yazmıştır.
Transformer'in piyasaya sürülmesinden sonra, akademik alandaki temel algoritma yenilik hızında büyük bir yavaşlama yaşandı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları giderek AI yarışmalarının anahtarı haline geldi, biraz teknik yeterliliğe sahip olan teknoloji şirketleri büyük modelleri kendi başlarına geliştirebiliyor.
Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde bir konuşma yaparken şunları söyledi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şu anki jeneratif yapay zeka dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."
OpenAI hala LLM'nin yön göstericisi olsa da, yarı iletken analiz kuruluşları GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir.
Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına eşdeğer büyük modeller üretebileceğini öngörüyor.
Camın Üzerinde İnşa Edilen Set
Şu anda, "Bai Mo Savaşı" artık bir mecaz değil, nesnel bir gerçekliktir.
İlgili raporlar, bu yıl Temmuz ayı itibarıyla, yurtiçindeki büyük model sayısının 130'a ulaştığını ve ABD'nin 114'ünü geçtiğini göstermektedir. Başarıyla virajı dönerek öne geçti, çeşitli efsaneler artık yurtiçi teknoloji şirketlerinin isimlendirilmesi için yeterli gelmiyor.
Çin ve ABD dışında, bazı daha zengin ülkeler de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirmiştir: Japonya ve BAE dışında, Hindistan hükümeti tarafından yönetilen Bhashini, Güney Koreli internet şirketi tarafından geliştirilen HyperClova X gibi projeler de bulunmaktadır.
Önümüzdeki bu durum, sanki her yerde balonların olduğu, sermayenin hüküm sürdüğü internetin keşif yıllarına geri dönmüş gibi.
Yukarıda belirtildiği gibi, Transformer büyük modelleri tamamen mühendislik sorunlarına dönüştürüyor. Sadece birinin parası ve ekran kartı varsa, geriye kalan her şeyi parametreler hallediyor. Ancak giriş engeli düşük olsa da, herkesin AI çağının devlerinden biri olma şansı olduğu anlamına gelmiyor.
Başlangıçta bahsedilen "Hayvanlar Savaşı" tipik bir örnektir: Falcon, Llama'yı geride bırakmasına rağmen, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zor.
Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak yaparak hem topluma teknoloji faydalarını paylaşmayı hem de halkın zekasını harekete geçirmeyi amaçlıyor. Üniversite profesörleri, araştırma kuruluşları ve KOBİ'lerin Llama'yı sürekli kullanması ve geliştirmesiyle birlikte, Meta bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu en önemli rekabet avantajıdır.
2015 yılında AI laboratuvarını kurduğunda, Meta açık kaynak tonunu belirlemişti; Zuckerberg sosyal medya ile başladı ve "kamu ilişkilerini iyi yönetmenin" önemini daha iyi anlıyor.
Örneğin Ekim ayında, Meta özel olarak "AI Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi kullanarak eğitim, çevre gibi sosyal sorunları çözen geliştiricilere 500.000 dolar hibe alma fırsatı verildi.
Bugün, Meta'nın Llama serisi açık kaynaklı LLM'lerin bir ölçütü haline geldi.
Ekim ayının başına kadar, bir açık kaynak LLM sıralamasında ilk 10'da, 8'i Llama 2 tabanlı olarak oluşturulmuş ve hepsi açık kaynak lisansını kullanmaktadır. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmıştır.
Elbette, Falcon gibi performansı artırmak da mümkün, ancak şu anda piyasadaki çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.
Örneğin, kısa bir süre önce, GPT-4 4.41 puanla AgentBench testinde birinci oldu. AgentBench, Tsinghua Üniversitesi, Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi, Berkeley tarafından ortaklaşa sunulmuştur ve LLM'nin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılmaktadır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı ortamda görevleri kapsamaktadır.
Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve aranın hala büyük olduğunu gösteriyor. Oysa o büyük ses getiren açık kaynak LLM'lerin test sonuçları genellikle 1 puanın civarında, GPT-4'ün 1/4'ünden bile az.
Bilinmelidir ki, GPT-4 bu yıl Mart ayında piyasaya sürüldü ve bu, dünya genelindeki rakiplerin yarım yıldan fazla bir süre sonra elde ettiği bir sonuçtur. Bu farkı yaratan, OpenAI'nin "zeka yoğunluğu" son derece yüksek bilim insanları ekibi ile uzun süreli LLM araştırmalarının birikmiş deneyimidir; bu nedenle her zaman çok önde kalabiliyorlar.
Yani, büyük modelin temel yeteneği parametreler değil, ekosistem inşasıdır ( açık kaynak ) ya da saf çıkarım yeteneği ( kapalı kaynak ).
Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, farklı LLM'lerin performansları benzerlik gösterebilir, çünkü herkes benzer model mimarileri ve veri setleri kullanıyor.
Bir diğer daha sezgisel zorluk ise: Midjourney dışında, görünüşe göre başka hiçbir büyük model kâr elde edemiyor.
Değerin Ankraj Noktası
Bu yılın Ağustos ayında, "OpenAI'nın 2024 yılının sonunda iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin ana fikri neredeyse bir cümleyle özetlenebilir: OpenAI'nın para harcama hızı çok fazla.
Metinde, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararlarının hızla genişlediği, yalnızca 2022'de yaklaşık 540 milyon dolar zarar ettiğinden ve yatırımcıların faturasını ödemesini beklemekten başka seçenekleri olmadığı belirtiliyor.
Makale başlığı korkutucu olsa da, birçok büyük model sağlayıcısının durumunu ortaya koyuyor: maliyetler ve gelirler arasında ciddi bir dengesizlik var.
Yüksek maliyetler, şu anda yapay zeka ile büyük para kazananların yalnızca Nvidia olduğunu, en fazla bir de Broadcom eklenebileceğini gösteriyor.
Danışmanlık şirketlerinin tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satacak. Bu, yapay zeka (AI) verimliliğini artıran bir AI çipidir ve dünya genelindeki teknoloji şirketleri ile araştırma kurumları tarafından kapışılıyor. Bu 300.000 H100, üst üste konduğunda 4.5 adet Boeing 747 uçağının ağırlığına eşit.
NVIDIA'nin performansı buna paralel olarak yükseldi, yıllık gelir %854 oranında patladı ve bir anda Wall Street'i şok etti. Şunu belirtmekte fayda var ki, şu anda H100 ikinci el piyasasında 40-50 bin dolara satılmakta, ancak malzeme maliyeti yalnızca yaklaşık 3000 dolar.
Yüksek hesaplama gücü maliyetleri, bir bakıma sektörün gelişiminde bir engel haline gelmiştir. Bir sermaye, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşasına 200 milyar dolar harcaması gerektiğini hesapladı; buna karşılık, büyük modellerin yılda en fazla 75 milyar dolar gelir elde edebildiği, arada en az 125 milyar dolarlık bir açık olduğu belirtiliyor.
Ayrıca, Midjourney gibi birkaç örnek dışında, çoğu yazılım şirketi büyük maliyetler ödemesine rağmen henüz bir kâr modeli bulamadı. Özellikle sektörün iki büyük lideri - Microsoft ve Adobe'nun performansı pek de tatmin edici değil.
Microsoft'un OpenAI ile işbirliği içinde geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu bağlamda, 30 dolara fiyatlandırılan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.
Aynı şekilde, yeni Firefly AI aracını piyasaya süren Adobe, kullanıcıların aşırı kullanımını önlemek için hızlı bir şekilde destekleyici bir puan sistemi oluşturdu ve şirketin zarar etmesini engelledi. Kullanıcılar aylık tahsis edilen puanı aştığında, Adobe hizmet hızını düşürecek.
Microsoft ve Adobe'nin, iş senaryolarının net olduğu ve çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Ancak, çoğu parametre yığılmış büyük modellerin en büyük uygulama alanı hala sohbet.
Inkar edilemez ki, OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi muhtemelen hiç yaşanmayacaktı; ancak şu anda, büyük modellerin eğitiminin getirdiği değerin bir soru işareti olduğunu söylemek zor.
Ayrıca, benzerleşen rekabetin artması ve açık kaynaklı modellerin sayısının artmasıyla, yalnızca büyük model tedarikçilerinin hayatta kalma alanı daha da daralabilir.
iPhone 4'ün patlama yapmasının nedeni 45nm sürecindeki A4 işlemcisi değil, bitki savaşı zombi ve öfkeli kuşları oynayabilmesidir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
10 Likes
Reward
10
7
Share
Comment
0/400
StableGeniusDegen
· 07-26 11:35
Tık tık, birkaç büyük model oldukça hareketli.
View OriginalReply0
consensus_whisperer
· 07-26 01:46
Sıralama ile oynamak gibi
View OriginalReply0
FallingLeaf
· 07-25 11:47
Bu kim kazanır henüz belli değil.
View OriginalReply0
OnChain_Detective
· 07-23 15:02
desen analizi, llama ile falcon rekabetinin klasik güvenlik risklerini gösterdi... dikkatli kalın fam
Yapay Zeka Büyük Model Dalgası Altındaki Yüzlerce Model Savaşı: Mühendislik Sorunu mu Yoksa Bilimsel Zorluk mu?
AI alanındaki "yüz model savaşı": mühendislik sorunu mu yoksa bilimsel bir meydan okuma mı?
Geçen ay, AI endüstrisinde bir "hayvanlar savaşı" başladı.
Bir taraf, Meta'nın piyasaya sürdüğü Llama modelidir; açık kaynak özelliği nedeniyle geliştiriciler arasında popülerdir. Japonya'daki bir şirket, Llama makalesini ve kaynak kodunu inceledikten sonra, Japonca versiyonu ChatGPT'yi hızla geliştirerek Japonya'nın AI darboğazı sorununu çözmüştür.
Diğer taraf, Falcon adını taşıyan büyük bir modeldir. Bu yıl Mayıs ayında, Falcon-40B piyasaya sürüldü ve Llama’yı geride bırakarak açık kaynaklı LLM sıralamasında zirveye çıktı. Bu sıralama, açık kaynak model topluluğu tarafından hazırlanmış olup, LLM yeteneklerini değerlendirmek için bir standart sunmaktadır. Sıralama esasen Llama ve Falcon'un sırayla yer aldığı bir liste gibidir.
Llama 2'nin piyasaya sürülmesinin ardından, Llama serisi geçici olarak önde; ancak Eylül ayının başında, Falcon 180B versiyonunu tanıttı ve tekrar daha yüksek bir sıralama elde etti.
İlginçtir ki, Falcon'un geliştiricisi Birleşik Arap Emirlikleri'nin başkenti Abu Dhabi'deki Teknoloji İnovasyon Araştırma Merkezi'dir. BAE hükümeti, "Bu alanda yer almamızın sebebi ana oyuncuları sarsmaktır" dedi.
Falcon 180B'nin piyasaya sürülmesinin ertesi günü, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, "TIME dergisi" tarafından seçilen "Yapay Zeka alanındaki en etkili 100 kişi" arasına girdi; onunla birlikte "Yapay Zeka babası" Hinton, OpenAI'nin Altman'ı gibi isimler de seçildi.
Artık, AI alanı bir çok sesin yarıştığı bir aşamaya girmiştir: belirli bir mali güce sahip olan ülkeler ve şirketler, kendi büyük dil modellerini yaratma peşindedir. Körfez ülkeleri arasında birden fazla katılımcı bulunmaktadır - Ağustos ayında, Suudi Arabistan, yerel üniversiteler için LLM eğitimi amacıyla 3000'den fazla H100 çipi satın aldı.
Bir yatırımcı şunları söyledi: "O zamanlar internetin iş modeli inovasyonunu küçümsemiştim, engel yoktu: yüzlerce takım savaşları, yüzlerce araba savaşları, yüzlerce yayın savaşları; sert teknoloji büyük model girişimlerinin hala yüzlerce model savaşı olduğunu hiç düşünmemiştim..."
Zor bir yüksek teknoloji olması gerekirken, nasıl oldu da bir ülke bir model, dönüm başına on bin kilo bir durum haline geldi?
Transformer Dünyayı Yutuyor
Amerika'daki girişimciler, Çinli teknoloji devleri ve Orta Doğu petrol baronları büyük modelleri takip edebiliyor, hepsi o ünlü makaleye borçlu: "Attention Is All You Need."
2017'de, 8 Google bilgisayar bilimci bu makalede Transformer algoritmasını tüm dünyaya açıkladı. Bu, yapay zeka tarihinin en çok atıfta bulunulan üçüncü makalesidir, Transformer'ın ortaya çıkışı bu AI dalgasını ateşledi.
Şu anda tüm büyük modeller, dünya çapında büyük yankı uyandıran GPT serisi de dahil olmak üzere, Transformer temelinde inşa edilmiştir.
Daha önce, "makinelere okumayı öğretmek" kabul gören bir akademik zorluktu. Görüntü tanımadan farklı olarak, insanlar okurken yalnızca mevcut kelime ve cümlelere odaklanmaz, aynı zamanda bağlamı da anlayarak okurlar.
Erken sinir ağlarının girişi birbirinden bağımsızdı, uzun metinleri veya tam makaleleri anlayamıyordu, bu da "开水间" ifadesinin "open water room" olarak tercüme edilmesi gibi sorunlara yol açıyordu.
2014'te, Google'da çalıştıktan sonra OpenAI'ye geçen bilgisayar bilimci Ilya, öncü bir başarı elde etti. Doğal dili işlemek için döngüsel sinir ağları (RNN) kullandı ve Google Çeviri'nin performansını rakiplerinin önüne geçirdi.
RNN, her nöronun hem mevcut girişi hem de bir önceki zaman dilimindeki girişi almasını sağlayan "döngüsel tasarım"ı önerir ve sinir ağlarına "bağlamı birleştirme" yeteneği kazandırır.
RNN'nin ortaya çıkışı akademik dünyada araştırma heyecanını tetikledi, daha sonra Transformer makalesinin yazarı Şazel de derinlemesine araştırmalar yaptı. Ancak geliştiriciler kısa sürede RNN'nin ciddi sorunları olduğunu keşfettiler:
Bu algoritma sıralı hesaplama kullanıyor, bağlam sorununu çözmesine rağmen, çalışma verimliliği yüksek değil ve çok sayıda parametreyi işlemek zor.
RNN'nin karmaşık tasarımı, kısa sürede Shazelle'i sıkmaya başladı. Bu nedenle 2015'ten itibaren Shazelle ve 7 benzer düşünen kişi, RNN alternatifleri geliştirmeye başladılar ve nihai sonuç Transformer oldu.
RNN ile karşılaştırıldığında, Transformer'ın iki büyük devrimi var:
Birincisi, konum kodlamasını RNN'nin döngüsel tasarımının yerine koymak, paralel hesaplamayı gerçekleştirmek - bu, Transformer'ın eğitim verimliliğini büyük ölçüde artırdı ve devasa verileri işleyebilmesini sağladı, AI'yı büyük model çağlarına taşıdı; ikincisi, bağlam yeteneğini daha da güçlendirmek.
Transformer birçok eksikliği bir anda çözdükten sonra, giderek NLP( doğal dil işleme) için baskın bir çözüm haline geldi ve "Transformer doğmazsa, NLP sonsuz bir gece gibi olur" hissi uyandırıyor. Hatta İlyia, kendi yarattığı RNN'den vazgeçip Transformer'a yöneldi.
Başka bir deyişle, Transformer günümüzün tüm büyük modellerinin atasıdır; büyük modelleri teorik araştırmadan tamamen mühendislik sorununa dönüştürmüştür.
2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirdi ve akademik dünyayı bir hayli etkiledi. Buna yanıt olarak, Google hızla daha güçlü bir AI modeli olan Meena'yı piyasaya sürdü.
GPT-2 ile karşılaştırıldığında, Meena'nın temel algoritmasında bir yenilik yoktur, sadece eğitim parametreleri 8.5 kat artmış ve hesaplama gücü 14 kat artmıştır. Transformer makalesinin yazarı Szegedy, bu tür bir "şiddetli yığma" karşısında büyük bir şok yaşamış ve hemen "Meena dünyayı yutuyor" başlıklı bir not yazmıştır.
Transformer'in piyasaya sürülmesinden sonra, akademik alandaki temel algoritma yenilik hızında büyük bir yavaşlama yaşandı. Veri mühendisliği, hesaplama ölçeği, model mimarisi gibi mühendislik unsurları giderek AI yarışmalarının anahtarı haline geldi, biraz teknik yeterliliğe sahip olan teknoloji şirketleri büyük modelleri kendi başlarına geliştirebiliyor.
Bu nedenle, bilgisayar bilimcisi Andrew Ng, Stanford Üniversitesi'nde bir konuşma yaparken şunları söyledi: "Yapay zeka, denetimli öğrenme, denetimsiz öğrenme, pekiştirmeli öğrenme ve şu anki jeneratif yapay zeka dahil olmak üzere bir dizi aracın toplamıdır. Bunlar, elektrik ve internet gibi diğer genel teknolojilerle benzerlik gösteren genel teknolojilerdir."
OpenAI hala LLM'nin yön göstericisi olsa da, yarı iletken analiz kuruluşları GPT-4'ün rekabet gücünün mühendislik çözümlerinden kaynaklandığını düşünüyor - eğer açık kaynak olursa, herhangi bir rakip hızla kopyalayabilir.
Bu analist, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına eşdeğer büyük modeller üretebileceğini öngörüyor.
Camın Üzerinde İnşa Edilen Set
Şu anda, "Bai Mo Savaşı" artık bir mecaz değil, nesnel bir gerçekliktir.
İlgili raporlar, bu yıl Temmuz ayı itibarıyla, yurtiçindeki büyük model sayısının 130'a ulaştığını ve ABD'nin 114'ünü geçtiğini göstermektedir. Başarıyla virajı dönerek öne geçti, çeşitli efsaneler artık yurtiçi teknoloji şirketlerinin isimlendirilmesi için yeterli gelmiyor.
Çin ve ABD dışında, bazı daha zengin ülkeler de "bir ülke bir model" ilkesini ilk aşamada gerçekleştirmiştir: Japonya ve BAE dışında, Hindistan hükümeti tarafından yönetilen Bhashini, Güney Koreli internet şirketi tarafından geliştirilen HyperClova X gibi projeler de bulunmaktadır.
Önümüzdeki bu durum, sanki her yerde balonların olduğu, sermayenin hüküm sürdüğü internetin keşif yıllarına geri dönmüş gibi.
Yukarıda belirtildiği gibi, Transformer büyük modelleri tamamen mühendislik sorunlarına dönüştürüyor. Sadece birinin parası ve ekran kartı varsa, geriye kalan her şeyi parametreler hallediyor. Ancak giriş engeli düşük olsa da, herkesin AI çağının devlerinden biri olma şansı olduğu anlamına gelmiyor.
Başlangıçta bahsedilen "Hayvanlar Savaşı" tipik bir örnektir: Falcon, Llama'yı geride bırakmasına rağmen, Meta üzerinde ne kadar büyük bir etki yarattığını söylemek zor.
Herkesin bildiği gibi, şirketler kendi araştırma sonuçlarını açık kaynak yaparak hem topluma teknoloji faydalarını paylaşmayı hem de halkın zekasını harekete geçirmeyi amaçlıyor. Üniversite profesörleri, araştırma kuruluşları ve KOBİ'lerin Llama'yı sürekli kullanması ve geliştirmesiyle birlikte, Meta bu sonuçları kendi ürünlerinde uygulayabilir.
Açık kaynak büyük modeller için, aktif bir geliştirici topluluğu en önemli rekabet avantajıdır.
2015 yılında AI laboratuvarını kurduğunda, Meta açık kaynak tonunu belirlemişti; Zuckerberg sosyal medya ile başladı ve "kamu ilişkilerini iyi yönetmenin" önemini daha iyi anlıyor.
Örneğin Ekim ayında, Meta özel olarak "AI Yaratıcı Teşvik" etkinliği düzenledi: Llama 2'yi kullanarak eğitim, çevre gibi sosyal sorunları çözen geliştiricilere 500.000 dolar hibe alma fırsatı verildi.
Bugün, Meta'nın Llama serisi açık kaynaklı LLM'lerin bir ölçütü haline geldi.
Ekim ayının başına kadar, bir açık kaynak LLM sıralamasında ilk 10'da, 8'i Llama 2 tabanlı olarak oluşturulmuş ve hepsi açık kaynak lisansını kullanmaktadır. Sadece bu platformda, Llama 2 açık kaynak lisansını kullanan LLM sayısı 1500'ü aşmıştır.
Elbette, Falcon gibi performansı artırmak da mümkün, ancak şu anda piyasadaki çoğu LLM'nin GPT-4 ile hala belirgin bir farkı var.
Örneğin, kısa bir süre önce, GPT-4 4.41 puanla AgentBench testinde birinci oldu. AgentBench, Tsinghua Üniversitesi, Ohio Eyalet Üniversitesi ve Kaliforniya Üniversitesi, Berkeley tarafından ortaklaşa sunulmuştur ve LLM'nin çok boyutlu açık üretim ortamlarındaki akıl yürütme ve karar verme yeteneklerini değerlendirmek için kullanılmaktadır. Test içeriği, işletim sistemleri, veritabanları, bilgi grafikleri, kart savaşları gibi 8 farklı ortamda görevleri kapsamaktadır.
Test sonuçları, ikinci olan Claude'un sadece 2.77 puan aldığını ve aranın hala büyük olduğunu gösteriyor. Oysa o büyük ses getiren açık kaynak LLM'lerin test sonuçları genellikle 1 puanın civarında, GPT-4'ün 1/4'ünden bile az.
Bilinmelidir ki, GPT-4 bu yıl Mart ayında piyasaya sürüldü ve bu, dünya genelindeki rakiplerin yarım yıldan fazla bir süre sonra elde ettiği bir sonuçtur. Bu farkı yaratan, OpenAI'nin "zeka yoğunluğu" son derece yüksek bilim insanları ekibi ile uzun süreli LLM araştırmalarının birikmiş deneyimidir; bu nedenle her zaman çok önde kalabiliyorlar.
Yani, büyük modelin temel yeteneği parametreler değil, ekosistem inşasıdır ( açık kaynak ) ya da saf çıkarım yeteneği ( kapalı kaynak ).
Açık kaynak topluluğunun giderek daha aktif hale gelmesiyle, farklı LLM'lerin performansları benzerlik gösterebilir, çünkü herkes benzer model mimarileri ve veri setleri kullanıyor.
Bir diğer daha sezgisel zorluk ise: Midjourney dışında, görünüşe göre başka hiçbir büyük model kâr elde edemiyor.
Değerin Ankraj Noktası
Bu yılın Ağustos ayında, "OpenAI'nın 2024 yılının sonunda iflas etme ihtimali" başlıklı bir makale dikkat çekti. Makalenin ana fikri neredeyse bir cümleyle özetlenebilir: OpenAI'nın para harcama hızı çok fazla.
Metinde, ChatGPT'nin geliştirilmesinden bu yana OpenAI'nin zararlarının hızla genişlediği, yalnızca 2022'de yaklaşık 540 milyon dolar zarar ettiğinden ve yatırımcıların faturasını ödemesini beklemekten başka seçenekleri olmadığı belirtiliyor.
Makale başlığı korkutucu olsa da, birçok büyük model sağlayıcısının durumunu ortaya koyuyor: maliyetler ve gelirler arasında ciddi bir dengesizlik var.
Yüksek maliyetler, şu anda yapay zeka ile büyük para kazananların yalnızca Nvidia olduğunu, en fazla bir de Broadcom eklenebileceğini gösteriyor.
Danışmanlık şirketlerinin tahminlerine göre, Nvidia bu yılın ikinci çeyreğinde 300.000'den fazla H100 satacak. Bu, yapay zeka (AI) verimliliğini artıran bir AI çipidir ve dünya genelindeki teknoloji şirketleri ile araştırma kurumları tarafından kapışılıyor. Bu 300.000 H100, üst üste konduğunda 4.5 adet Boeing 747 uçağının ağırlığına eşit.
NVIDIA'nin performansı buna paralel olarak yükseldi, yıllık gelir %854 oranında patladı ve bir anda Wall Street'i şok etti. Şunu belirtmekte fayda var ki, şu anda H100 ikinci el piyasasında 40-50 bin dolara satılmakta, ancak malzeme maliyeti yalnızca yaklaşık 3000 dolar.
Yüksek hesaplama gücü maliyetleri, bir bakıma sektörün gelişiminde bir engel haline gelmiştir. Bir sermaye, küresel teknoloji şirketlerinin her yıl büyük model altyapı inşasına 200 milyar dolar harcaması gerektiğini hesapladı; buna karşılık, büyük modellerin yılda en fazla 75 milyar dolar gelir elde edebildiği, arada en az 125 milyar dolarlık bir açık olduğu belirtiliyor.
Ayrıca, Midjourney gibi birkaç örnek dışında, çoğu yazılım şirketi büyük maliyetler ödemesine rağmen henüz bir kâr modeli bulamadı. Özellikle sektörün iki büyük lideri - Microsoft ve Adobe'nun performansı pek de tatmin edici değil.
Microsoft'un OpenAI ile işbirliği içinde geliştirdiği AI kod oluşturma aracı GitHub Copilot, her ay 10 dolar ücret almasına rağmen, tesis maliyetleri nedeniyle Microsoft her ay 20 dolar zarar ediyor. Aşırı kullanıcılar, Microsoft'un her ay 80 dolar zarar etmesine neden olabiliyor. Bu bağlamda, 30 dolara fiyatlandırılan Microsoft 365 Copilot'un daha fazla zarar etmesi muhtemel.
Aynı şekilde, yeni Firefly AI aracını piyasaya süren Adobe, kullanıcıların aşırı kullanımını önlemek için hızlı bir şekilde destekleyici bir puan sistemi oluşturdu ve şirketin zarar etmesini engelledi. Kullanıcılar aylık tahsis edilen puanı aştığında, Adobe hizmet hızını düşürecek.
Microsoft ve Adobe'nin, iş senaryolarının net olduğu ve çok sayıda ücretli kullanıcıya sahip yazılım devleri olduğunu bilmek gerekir. Ancak, çoğu parametre yığılmış büyük modellerin en büyük uygulama alanı hala sohbet.
Inkar edilemez ki, OpenAI ve ChatGPT ortaya çıkmasaydı, bu AI devrimi muhtemelen hiç yaşanmayacaktı; ancak şu anda, büyük modellerin eğitiminin getirdiği değerin bir soru işareti olduğunu söylemek zor.
Ayrıca, benzerleşen rekabetin artması ve açık kaynaklı modellerin sayısının artmasıyla, yalnızca büyük model tedarikçilerinin hayatta kalma alanı daha da daralabilir.
iPhone 4'ün patlama yapmasının nedeni 45nm sürecindeki A4 işlemcisi değil, bitki savaşı zombi ve öfkeli kuşları oynayabilmesidir.