AI大模型热潮下的百模大战:工程难题还是科研挑战

RugResistant

2025-07-23 14:34:19

AI领域的"百模大战":工程问题还是科学挑战?

上个月,AI业界掀起了一场"动物之战"。

一方是Meta推出的Llama模型,因其开源特性深受开发者欢迎。日本某公司研究Llama论文和源码后,迅速开发出日语版ChatGPT,解决了日本的AI瓶颈问题。

另一方是名为Falcon的大模型。今年5月,Falcon-40B问世,力压Llama登上了开源LLM排行榜榜首。该榜单由开源模型社区制作,提供了评估LLM能力的标准。排行榜基本上就是Llama和Falcon轮流占据。

Llama 2发布后,Llama系列暂时领先;但9月初,Falcon推出180B版本,再次获得更高排名。

有趣的是,Falcon的开发者是阿联酋首都阿布扎比的科技创新研究所。阿联酋政府表示,"我们参与这个领域是为了颠覆核心玩家"。

Falcon 180B发布次日,阿联酋人工智能部长入选《时代周刊》评选的"AI领域最具影响力的100人";与他一同入选的还有"AI教父"辛顿、OpenAI的阿尔特曼等。

如今,AI领域已进入百家争鸣阶段:只要有一定财力的国家和企业,多少都在打造自己的大语言模型。仅在海湾国家圈子内就不止一个参与者——8月,沙特阿拉伯刚为国内大学购买了3000多块H100芯片用于训练LLM。

有投资人曾吐槽:"当年看不起互联网的商业模式创新,觉得没有壁垒:百团大战、百车大战、百播大战;没想到硬科技大模型创业,依然是百模大战..."

本应是高难度的硬科技,怎么就变成了一国一模、亩产万斤的局面?

Transformer吞噬世界

美国初创公司、中国科技巨头、中东石油大亨能够追逐大模型,都要感谢那篇著名论文:《Attention Is All You Need》。

2017年,8位谷歌计算机科学家在这篇论文中向全世界公开了Transformer算法。这是人工智能历史上被引用第三多的论文,Transformer的出现引爆了此轮AI热潮。

目前所有大模型,包括轰动全球的GPT系列,都建立在Transformer基础之上。

此前,"教机器读书"一直是公认的学术难题。与图像识别不同,人类阅读时不仅关注当前词句,还会结合上下文理解。

早期神经网络的输入彼此独立,无法理解长文本甚至整篇文章,导致诸如把"开水间"翻译成"open water room"的问题。

2014年,在谷歌工作后跳槽OpenAI的计算机科学家伊利亚率先取得突破。他使用循环神经网络(RNN)处理自然语言,使谷歌翻译性能迅速领先竞争对手。

RNN提出"循环设计",让每个神经元同时接收当前输入和上一时刻输入,赋予神经网络"结合上下文"的能力。

RNN的出现激发了学术界研究热情,日后Transformer论文作者沙泽尔也曾深入研究。然而开发者们很快发现,RNN存在严重缺陷:

该算法采用顺序计算,虽然解决了上下文问题,但运行效率不高,难以处理大量参数。

RNN的繁琐设计很快让沙泽尔感到厌烦。因此从2015年起,沙泽尔和7位志同道合者着手开发RNN替代品,最终成果就是Transformer。

相比RNN,Transformer有两大变革:

一是用位置编码取代RNN的循环设计,实现并行计算——这大大提升了Transformer训练效率,使其能处理海量数据,将AI推向大模型时代;二是进一步加强上下文能力。

Transformer一举解决诸多缺陷后,逐渐成为NLP(自然语言处理)的主导方案,有"天不生Transformer,NLP万古如长夜"之感。连伊利亚都放弃了自己开创的RNN,转投Transformer。

换言之,Transformer是当今所有大模型的始祖,它将大模型从理论研究变成了纯粹的工程问题。

2019年,OpenAI基于Transformer开发出GPT-2,一度惊艳学术界。作为回应,谷歌迅速推出性能更强的AI模型Meena。

与GPT-2相比,Meena并无底层算法革新,仅是训练参数增加8.5倍、算力增加14倍。Transformer论文作者沙泽尔对这种"暴力堆砌"大为震撼,当即写了篇"Meena吞噬世界"的备忘录。

Transformer问世后,学术界底层算法创新速度大幅放缓。数据工程、算力规模、模型架构等工程要素日益成为AI竞赛的关键,稍有技术能力的科技公司都能自行开发大模型。

因此,计算机科学家吴恩达在斯坦福大学演讲时提出:"AI是一系列工具的集合,包括监督学习、无监督学习、强化学习以及现在的生成式人工智能。这些都是通用技术,与电力和互联网等其他通用技术类似。"

OpenAI固然仍是LLM的风向标,但半导体分析机构认为,GPT-4的竞争力源于工程解决方案——若开源,任何竞争对手都能迅速复制。

该分析师预计,其他大型科技公司可能很快就能打造出与GPT-4性能相当的大模型。

建在玻璃上的护城河

当下,"百模大战"已不再是比喻,而是客观现实。

相关报告显示,截至今年7月,国内大模型数量已达130个,超过美国的114个,成功实现弯道超车,各种神话传说已快不够国内科技公司取名用了。

在中美之外,一些较为富裕的国家也初步实现了"一国一模":除日本与阿联酋外,还有印度政府主导的Bhashini、韩国互联网公司开发的HyperClova X等。

眼前这阵仗,仿佛回到了那个泡沫遍地、资本横行的互联网拓荒年代。

正如前文所述,Transformer让大模型变成纯粹的工程问题,只要有人有钱有显卡,剩下的就交给参数。但入场门槛虽不高,并不意味着人人都有机会成为AI时代的巨头。

开头提到的"动物之战"就是典型案例:Falcon虽然排名力压Llama,但很难说对Meta造成了多大冲击。

众所周知,企业开源自身科研成果,既是为了与社会分享科技红利,也希望调动群众智慧。随着各大学教授、研究机构、中小企业不断使用、改进Llama,Meta可以将这些成果应用到自己的产品中。

对开源大模型而言,活跃的开发者社区才是核心竞争力。

而早在2015年组建AI实验室时,Meta就确立了开源基调;扎克伯格靠社交媒体起家,更懂得"搞好群众关系"的重要性。

例如10月,Meta专门举办了"AI创作者激励"活动:使用Llama 2解决教育、环境等社会问题的开发者,有机会获得50万美元资助。

如今,Meta的Llama系列已成为开源LLM的风向标。

截至10月初,某开源LLM排行榜Top 10中,有8个基于Llama 2打造,均使用其开源协议。仅在该平台上,使用Llama 2开源协议的LLM已超过1500个。

当然,像Falcon那样提高性能也未尝不可,但目前市面上大多数LLM与GPT-4仍有明显差距。

例如不久前,GPT-4以4.41分的成绩问鼎AgentBench测试榜首。AgentBench由清华大学与俄亥俄州立大学、加州大学伯克利分校共同推出,用于评估LLM在多维度开放式生成环境中的推理能力和决策能力,测试内容涵盖操作系统、数据库、知识图谱、卡牌对战等8个不同环境的任务。

测试结果显示,第二名Claude仅得2.77分,差距仍较大。至于那些声势浩大的开源LLM,测试成绩多在1分上下,还不到GPT-4的1/4。

要知道,GPT-4发布于今年3月,这还是全球同行追赶大半年后的成绩。造成这种差距的,是OpenAI"智商密度"极高的科学家团队与长期研究LLM积累的经验,因此能始终遥遥领先。

也就是说,大模型的核心能力并非参数,而是生态建设(开源)或纯粹的推理能力(闭源)。

随着开源社区日益活跃,各LLM性能可能趋同,因为大家都在使用相似的模型架构与数据集。

另一个更直观的难题是:除了Midjourney,似乎还没有哪个大模型能盈利。

价值的锚点

今年8月,一篇题为"OpenAI可能于2024年底破产"的文章引发关注。文章主旨几乎可用一句话概括:OpenAI的烧钱速度太快了。

文中提到,自开发ChatGPT以来,OpenAI亏损迅速扩大,仅2022年就亏损约5.4亿美元,只能等待投资方买单。

文章标题虽耸人听闻,却道出了众多大模型提供商的现状:成本与收入严重失衡。

过高的成本导致目前靠人工智能赚大钱的只有英伟达,顶多再加个博通。

据咨询公司预估,英伟达今年二季度卖出超30万块H100。这是一款AI芯片,训练AI效率极高,全球科技公司、科研机构都在抢购。这30万块H100叠在一起,重量相当于4.5架波音747飞机。

英伟达业绩随之飙升,同比营收暴涨854%,一度震惊华尔街。值得一提的是,目前H100在二手市场售价已炒至4-5万美元,但其物料成本仅约3000美元。

高昂的算力成本在某种程度上已成为行业发展阻力。某资本曾测算:全球科技公司每年预计将花费2000亿美元用于大模型基础设施建设;相比之下,大模型每年最多只能产生750亿美元收入,中间至少存在1250亿美元缺口。

此外,除Midjourney等少数案例外,大多数软件公司在付出巨额成本后,还未找到盈利模式。尤其是行业两大领头羊——微软和Adobe的表现都不尽如人意。

微软与OpenAI合作开发的AI代码生成工具GitHub Copilot,虽每月收取10美元,但因设施成本,微软反而每月亏损20美元,重度用户甚至能让微软每月亏损80美元。据此推测,定价30美元的Microsoft 365 Copilot可能亏损更多。

同样,刚发布Firefly AI工具的Adobe也迅速上线配套积分系统,防止用户过度使用导致公司亏损。一旦用户超出每月分配积分,Adobe就会降低服务速度。

要知道微软和Adobe已是业务场景明确、拥有大量付费用户的软件巨头。而多数参数堆积如山的大模型,最大应用场景仍是聊天。

不可否认,若无OpenAI和ChatGPT横空出世,这场AI革命可能根本不会发生;但当下,训练大模型带来的价值恐怕要打个问号。

而且,随着同质化竞争加剧,以及开源模型越来越多,单纯大模型供应商的生存空间可能会进一步缩小。

iPhone 4的爆红不是因为45nm制程的A4处理器,而是它能玩植物大战僵尸和愤怒的小鸟。

GPT6.94%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

10人点赞了这条动态

赞赏
10
7
分享

0/400

StableGeniusDegen

· 07-26 11:35

啧几个大模型打得挺热闹

consensus_whisperer

· 07-26 01:46

争榜单跟玩似的

落叶不归根

· 07-25 11:47

这谁赢还不一定呢

OnChain_Detective

· 07-23 15:02

模式分析显示骆驼与猎鹰的竞争存在经典的安全风险... 保持警惕，家人们

查看原文回复0

快照暴击手

· 07-23 14:59

对线一起玩玩呗

PrivateKeyParanoia

· 07-23 14:57

谁才是动物园里的老大呢

闪电丢包侠

· 07-23 14:43

你大模型玩你的我丢包玩我的

话题
1/3
1Gate Launchpad IKA上线
49854 热度
2以太坊重返3800
6941 热度
3美欧达成关税协议
5555 热度
4加密总市值破4万亿美元
1042 热度
5稳定币监管动向
658 热度