AI百模大戰:從Transformer革命到生態競爭

RugResistant

2025-07-24 05:05:58

AI大模型熱潮下的"百模大戰"

上月，AI界掀起了一場"動物之戰"。一方是Meta的Llama，因開源特性深受開發者歡迎。日本電氣公司NEC參考Llama論文和代碼後，迅速開發出日語版ChatGPT，解決了日本AI發展瓶頸。

另一方是名爲Falcon的大模型。今年5月，Falcon-40B問世，超越Llama登上開源LLM排行榜首位。該榜單由開源模型社區制作，提供LLM能力評估標準並排名。排行榜上Llama和Falcon輪番領先。

Llama 2發布後，暫時奪回榜首；但9月初，Falcon推出180B版本，再次取得更高排名。

有趣的是，Falcon的開發者是阿聯酋首都阿布扎比的科技創新研究所，而非科技公司。阿聯酋官方表示參與AI競爭是爲了顛覆主流格局。

Falcon 180B發布次日，阿聯酋人工智能部長入選《時代周刊》"AI領域最具影響力的100人"，與"AI教父"辛頓、OpenAI的阿爾特曼等人同榜。

如今，AI領域已進入百花齊放階段。有一定財力的國家和企業都在嘗試打造本土版ChatGPT。僅在海灣地區，已有多個參與者。8月，沙特阿拉伯爲國內大學購買了3000多塊H100芯片，用於訓練LLM。

投資人朱嘯虎曾評論道，當年互聯網創業被認爲缺乏壁壘，如今硬科技大模型創業也演變成百模大戰。

原本被視爲高門檻的硬科技，爲何變成了各國競相發展的項目？

Transformer引發AI革命

無論國籍如何，當前大模型包括GPT系列在內，都建立在Transformer算法基礎上。2017年，8位谷歌科學家在《Attention Is All You Need》論文中公開了Transformer算法，成爲AI史上被引用第三多的論文，也是此輪AI熱潮的關鍵。

此前,"教機器讀書"一直是學界難題。與圖像識別不同，人類閱讀時會結合上下文理解。早期神經網路難以理解長文本，常出現誤譯問題。

2014年，谷歌科學家伊利亞提出循環神經網路(RNN)處理自然語言，大幅提升了谷歌翻譯性能。RNN引入"循環設計"，使神經網路具備結合上下文的能力。

RNN點燃了學界熱情，但存在效率低下、難處理大量參數等問題。2015年起，沙澤爾等人開始開發RNN替代品，最終誕生了Transformer。

Transformer相比RNN有兩大改進:一是用位置編碼替代循環設計,實現並行計算,大幅提升訓練效率;二是進一步加強了上下文理解能力。Transformer解決了衆多難題，逐漸成爲NLP領域的主流方案。

2019年,OpenAI基於Transformer開發GPT-2,震驚學界。谷歌隨即推出性能更強的Meena,僅靠增加參數和算力就超越了GPT-2。Transformer的問世,使得算法創新速度放緩,工程要素如數據、算力、模型架構等成爲AI競賽關鍵。

計算機科學家吳恩達認爲,AI正成爲電力、互聯網等通用技術。分析機構Semi Analysis預計,其他大型科技公司有望在不久後打造出媲美GPT-4性能的大模型。

百模大戰背後的挑戰

截至今年7月,中國大模型數量已達130個,超過美國的114個。除中美外,其他富裕國家也開始打造本土大模型,如印度的Bhashini、韓國Naver的HyperClova X等。

這種局面讓人想起互聯網泡沫時代。雖然Transformer降低了大模型開發門檻,但並不意味着人人都能成爲AI巨頭。以"動物之戰"爲例,Falcon雖在排名上勝出,但對Meta影響有限。

對開源大模型而言,活躍的開發者社區才是核心競爭力。Meta早在2015年就確立了開源策略。10月,Meta還推出了"AI創作者激勵"活動,資助使用Llama 2解決社會問題的開發者。

目前,Meta的Llama系列已成爲開源LLM的風向標。截至10月初,Hugging Face排行榜Top 10中有8個基於Llama 2開發,使用其開源協議的LLM超過1500個。

雖然提升性能是可行之路,但多數LLM與GPT-4仍有明顯差距。在AgentBench測試中,GPT-4以4.41分居首,第二名Claude僅2.77分,開源LLM多在1分左右。這種差距源於OpenAI團隊的實力和長期積累的經驗。

因此,大模型的核心競爭力在於生態建設(開源)或純粹的推理能力(閉源)。隨着開源社區發展,各LLM性能可能趨同。更直接的問題是,除Midjourney外,似乎還沒有大模型實現盈利。

價值錨定的困境

今年8月,一篇預測OpenAI可能於2024年底破產的文章引發關注。文章指出,自開發ChatGPT後,OpenAI虧損迅速擴大,2022年虧損約5.4億美元,依賴微軟投資。這反映了大模型提供商普遍面臨的成本與收入失衡問題。

高昂的成本使得目前主要受益者是英偉達等芯片廠商。據Omdia估計,英偉達二季度售出超30萬塊H100芯片,重量相當於4.5架波音747。英偉達業績大漲,H100二手價格炒至4-5萬美元,而成本僅3000多美元。

算力成本已成爲行業發展阻力。紅杉資本估算,全球科技公司每年將花費2000億美元建設大模型基礎設施,而大模型年收入最多750億美元,存在至少1250億美元缺口。

多數軟件公司在投入巨資後仍未找到盈利模式。即使是微軟、Adobe等巨頭也面臨挑戰。微軟與OpenAI合作的GitHub Copilot每用戶每月虧損20-80美元。Adobe爲Firefly AI工具引入積分系統,限制用戶過度使用。

大多數大模型的主要應用仍局限於聊天。雖然OpenAI和ChatGPT推動了AI革命,但單純訓練大模型的價值存疑。隨着同質化競爭加劇和開源模型增多,純大模型供應商的空間可能進一步縮小。

正如iPhone 4的成功不在於A4處理器,而在於其應用生態,大模型的未來也將取決於其在實際應用中創造的價值。

GPT-0.24%

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

13人點讚了這條動態

讚賞
13
6
分享

留言

0/400

吃面还是吃币

· 07-25 10:23

阿联酋卷入AI百模大战真是没想到鸭

回復0

PumpBeforeRug

· 07-24 05:35

谁是最后赢家还不一定呢难说～

回復0

后知后觉小王

· 07-24 05:33

啥啊动物打架谁都没赢啊

回復0

破产艺术家

· 07-24 05:26

这互相卷参数还不如搞个大模型接大模型呢

回復0

社恐质押者

· 07-24 05:21

都在刷排名有啥用又不是排位赛

回復0

链上数据侦探er

· 07-24 05:13

跟个打游戏排名一样

回復0

話題
1/3
1餘幣寶年化收益破24%
31771 熱度
2Gate Launchpad IKA上線
34746 熱度
3以太坊交易量飆升
32751 熱度
4比特幣市場分析
49710 熱度
5Gate ETH十週年回饋
19140 熱度