AI Çok Modlu Savaşı: Transformer Devriminden Ekosistem Rekabetine

2025-07-24 05:05:58

AI Büyük Model Dalgası Altındaki "Yüzlerce Model Savaşı"

Geçen ay, AI dünyasında bir "hayvanlar savaşı" patlak verdi. Bir taraf Meta'nın Llama'sı, açık kaynak özellikleri nedeniyle geliştiriciler arasında popülerlik kazandı. Japon elektrik şirketi NEC, Llama makalesi ve kodunu referans alarak hızlıca Japonca bir ChatGPT geliştirdi ve Japonya'nın AI gelişimindeki darboğazı çözdü.

Diğer taraf, Falcon olarak adlandırılan büyük bir modeldir. Bu yılın Mayıs ayında, Falcon-40B piyasaya sürüldü ve Llama'yı geride bırakarak açık kaynak LLM sıralamasının zirvesine yerleşti. Bu liste, açık kaynak model topluluğu tarafından hazırlanmakta olup, LLM yetenek değerlendirme standartları sunmakta ve sıralama yapmaktadır. Sıralamada Llama ve Falcon sırasıyla liderlik etmektedir.

Llama 2 yayınlandıktan sonra geçici olarak birinci sırayı aldı; ancak Eylül başında, Falcon 180B sürümünü piyasaya sürdü ve tekrar daha yüksek bir sıralama elde etti.

İlginçtir ki, Falcon'un geliştiricisi, Birleşik Arap Emirlikleri'nin başkenti Abu Dabi'deki Teknoloji İnovasyon Araştırma Enstitüsü'dür, teknoloji şirketi değil. Birleşik Arap Emirlikleri yetkilileri, AI yarışına katılmanın ana akım düzeni bozmak için olduğunu ifade etti.

Falcon 180B'nin yayımlanmasından bir gün sonra, Birleşik Arap Emirlikleri Yapay Zeka Bakanı, "TIME dergisi"nin "Yapay Zeka alanında en etkili 100 kişi" listesine, "Yapay Zeka Baba"sı Hinton ve OpenAI'dan Altman gibi isimlerle birlikte girdi.

Artık AI alanı, birçok farklı projenin ortaya çıktığı bir aşamaya girdi. Belirli bir mali gücü olan ülkeler ve şirketler, yerel versiyon ChatGPT'yi geliştirmeye çalışıyor. Körfez bölgesinde, birçok katılımcı var. Ağustos ayında, Suudi Arabistan, yerel üniversiteler için 3000'den fazla H100 çip satın aldı ve bunları LLM eğitimi için kullanacak.

Yatırımcı Zhu Xiaohu, yıllar önce internet girişimlerinin bariyerlerden yoksun olduğu düşünülüyordu, şimdi ise sert teknoloji büyük model girişimleri yüzlerce model savaşı haline dönüştü.

Neden başlangıçta yüksek bir engel olarak görülen sert teknolojiler, şimdi tüm ülkelerin rekabet içinde geliştirdiği projeler haline geldi?

Transformer AI Devrimini Başlattı

Herhangi bir milliyet fark etmeksizin, mevcut büyük modeller, GPT serisi de dahil olmak üzere, Transformer algoritması temelinde inşa edilmiştir. 2017 yılında, 8 Google bilim insanı "Attention Is All You Need" makalesinde Transformer algoritmasını kamuoyuna açıkladı ve bu, AI tarihindeki en çok atıf yapılan üçüncü makale oldu ve bu AI heyecanının anahtarıdır.

Daha önce, "makinelere okumayı öğretmek" akademik bir sorun olmuştur. Görüntü tanımadan farklı olarak, insanlar okurken bağlamı birleştirerek anlarlar. Erken dönem sinir ağları uzun metinleri anlamakta zorluk çekmiş ve sık sık yanlış çeviri sorunları yaşanmıştır.

2014 yılında, Google bilim insanı Ilya, doğal dil işleme için döngüsel sinir ağları (RNN) önerdi ve bu, Google Çeviri'nin performansını önemli ölçüde artırdı. RNN, sinir ağlarının bağlamı birleştirme yeteneğine sahip olmasını sağlayan "döngü tasarımı"nı tanıttı.

RNN, akademideki heyecanı ateşledi, ancak düşük verimlilik, çok sayıda parametreyi işleme zorluğu gibi sorunlar var. 2015'ten itibaren, Shazeel ve diğerleri RNN yerine geçebilecek bir model geliştirmeye başladılar ve nihayetinde Transformer doğdu.

Transformer'ın RNN'e göre iki büyük iyileştirmesi vardır: biri döngü tasarımını yerinde kodlama ile değiştirmek, paralel hesaplamayı sağlamak ve eğitim verimliliğini büyük ölçüde artırmaktır; diğeri ise bağlam anlama yeteneğini daha da güçlendirmektir. Transformer, birçok zorluğu çözerek, giderek NLP alanında ana akım bir çözüm haline gelmiştir.

2019'da, OpenAI Transformer tabanlı GPT-2'yi geliştirerek akademiyi şok etti. Google hemen ardından, yalnızca parametre ve hesaplama gücünü artırarak GPT-2'yi geride bırakan daha güçlü Meena'yı piyasaya sürdü. Transformer'ın ortaya çıkışı, algoritma yenilik hızını yavaşlattı ve veri, hesaplama gücü, model mimarisi gibi mühendislik unsurları AI yarışında kritik hale geldi.

Bilgisayar bilimci Andrew Ng, yapay zekanın elektrik, internet gibi genel teknolojiler haline geldiğini düşünüyor. Analiz kuruluşu Semi Analysis, diğer büyük teknoloji şirketlerinin yakında GPT-4 performansına benzer büyük modeller geliştirebileceğini öngörüyor.

Çoklu Model Savaşının Arkasındaki Zorluklar

Bu yıl Temmuz itibarıyla, Çin'in büyük model sayısı 130'a ulaşmış, ABD'nin 114'ünü geçmiştir. Çin ve ABD dışında, diğer zengin ülkeler de yerel büyük modeller geliştirmeye başlamıştır, örneğin Hindistan'ın Bhashini'si, Güney Kore'nin Naver'inin HyperClova X'i gibi.

Bu durum, internet balonu dönemini hatırlatıyor. Transformer büyük model geliştirme eşiğini düşürse de, bu herkesin AI devlerinden biri olacağı anlamına gelmiyor. "Hayvan Savaşı" örneğinde, Falcon sıralamada öne çıksa da, Meta üzerindeki etkisi sınırlı.

Açık kaynak büyük modeller açısından, aktif bir geliştirici topluluğu ana rekabet gücüdür. Meta, 2015 yılında açık kaynak stratejisini belirlemiştir. Ekim ayında, Meta aynı zamanda "AI Yaratıcı Teşvik" etkinliğini başlatarak, Llama 2'yi sosyal sorunları çözmek için kullanan geliştiricilere fon sağlamıştır.

Şu anda, Meta'nın Llama serisi açık kaynak LLM'lerin bir ölçütü haline geldi. Ekim ayı başı itibarıyla, Hugging Face sıralamasındaki ilk 10'un 8'i Llama 2'ye dayanıyor ve açık kaynak lisansını kullanan LLM sayısı 1500'ü aştı.

Performansın artırılması mümkün bir yol olsa da, çoğu LLM ve GPT-4 arasında hala belirgin bir fark var. AgentBench testinde, GPT-4 4.41 puanla birinci, ikinci gelen Claude ise sadece 2.77 puan aldı, açık kaynak LLM'ler ise genellikle 1 puan civarında. Bu fark, OpenAI ekibinin gücünden ve uzun sürede biriken deneyimden kaynaklanıyor.

Bu nedenle, büyük modellerin temel rekabet gücü ekosistem inşasında ( açık kaynak ) veya tamamen çıkarım yeteneği ( kapalı kaynak ) bulunmaktadır. Açık kaynak topluluğunun gelişimi ile birlikte, çeşitli LLM'lerin performansları benzer hale gelebilir. Daha doğrudan bir sorun ise, Midjourney dışında, görünüşe göre başka bir büyük model kâr elde edememiştir.

Değer Sabitleme Sorunu

Bu yılın Ağustos ayında, OpenAI'nin 2024 sonunda iflas edebileceğine dair bir makale dikkat çekti. Makalede, ChatGPT'yi geliştirdikten sonra OpenAI'nin zararlarının hızla büyüdüğü, 2022'de yaklaşık 540 milyon dolar zarar ettiği ve Microsoft'un yatırımına bağımlı olduğu belirtildi. Bu, büyük model sağlayıcılarının genel olarak karşılaştığı maliyet ve gelir dengesizliği sorununu yansıtıyor.

Yüksek maliyetler, şu anda ana faydalanıcıların Nvidia gibi çip üreticileri olmasını sağlıyor. Omdia'nın tahminlerine göre, Nvidia ikinci çeyrekte 300.000'den fazla H100 çipi sattı, bu da 4.5 Boeing 747'ye eşdeğer bir ağırlık. Nvidia'nın sonuçları büyük bir artış gösterdi, H100'ün ikinci el fiyatı 40.000-50.000 dolara yükseldi, oysa maliyet sadece 3.000 dolardan fazla.

Hesaplama maliyeti, sektörün gelişimi için bir engel haline geldi. Sequoia Capital, küresel teknoloji şirketlerinin her yıl 200 milyar dolar harcayacağını tahmin ediyor, büyük model altyapısı inşa etmek için, ancak büyük modellerin yıllık geliri en fazla 75 milyar dolar, en az 125 milyar dolarlık bir açık var.

Çoğu yazılım şirketi büyük yatırımlar yaptıktan sonra hala kârlılık modeli bulamadı. Microsoft, Adobe gibi devler bile zorluklarla karşılaşıyor. Microsoft'un OpenAI ile iş birliği yaptığı GitHub Copilot, her kullanıcı için aylık 20-80 dolar zarar ediyor. Adobe, Firefly AI aracı için bir puan sistemi getirerek kullanıcıların aşırı kullanımını sınırladı.

Büyük model uygulamalarının çoğu hala sohbetle sınırlıdır. OpenAI ve ChatGPT'nin AI devrimini teşvik etmesine rağmen, yalnızca büyük model eğitiminin değeri sorgulanmaktadır. Homojen rekabetin artması ve açık kaynaklı modellerin çoğalmasıyla, saf büyük model sağlayıcılarının alanı daha da daralabilir.

iPhone 4'ün başarısının A4 işlemcisinde değil, uygulama ekosisteminde yattığı gibi, büyük modellerin geleceği de pratik uygulamalarda yarattıkları değere bağlı olacaktır.

GPT6.28%

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

13 Likes