Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
Especialista em investimentos em chips: Google TPU mantém vantagem temporariamente, mas GPU da NVIDIA possui maior vantagem a longo prazo
美晶片投資專家 Gavin Baker 在最新访谈中深入解析辉达 GPU (Hopper、Blackwell) 与 Google TPU 的差异,包括从技术、性能、成本与协同运作等角度进行深度剖析。他指出,Google TPU 在短期具暂时领先优势,但从长期来看,NVIDIA 的 GPU 生态系仍具有更强的垄断力。
GPU 是全栈平台,TPU 是单点 ASIC
Baker 表示,AI 加速器的分歧从最底层的设计理念就已经出现。辉达的 GPU,从 Hopper、Blackwell 到未来的 Rubin,都强调是全栈平台,从 GPU 本体、GPU 双向互连技术 NVLink、网卡、交换器到 CUDA、TensorRT 等软体层,全都由辉达一手包办。企业买了 GPU 之后,等于可取得一整套能直接投入训练和推论的完整环境,不需要再自行组装网络或重新写软体。
相比之下,Google TPU (v4、v5e、v6、v7) 本质是特殊应用集成电路 ASIC,也就是专门为特定 AI 运算打造的加速器。Google 负责前端逻辑设计,但后端由博通 (Broadcom) 制作,再交由台积电 (TSMC) 生产。TPU 其他不可或缺的零件,例如交换器、网卡与软体生态,Google 都要自己整合,供应链协作比 GPU 复杂许多。
整体来说,GPU 的优势不在于单颗晶片的效能,而是整个平台与生态系的完整度。这也是两者竞争差距越来越明显的起点。
Blackwell 效能大跃进,TPU v6/v7 面临更大压力
Baker 指出,进入 2024 – 2025 年,GPU 与 TPU 的效能差距愈加明显。Blackwell 的 GB200 到 GB300 是一次大幅度的架构跳跃,转向液冷设计,单机机柜耗电达 130kW,整体复杂度更是前所未见。真正大量部署的时间距今不过三、四个月,仍处于非常新的阶段。
下一代 GB300 又能直接插入 GB200 的机柜,企业扩建速度因此会更快,其中 xAI 因为打造机房速度最快,被视为第一批能将 Blackwell 效能发挥到极致的客户。Baker 比喻:
「如果 Hopper 被形容成二战末最先进的飞机,那 TPU v6/v7 就像 F-4 Phantom,是再往后两代的飞机。而 Blackwell 则是 F-35,属于完全不同级别的性能。」
说明 TPU v6/v7 与 Blackwell 的硬件级别不同,也点出现阶段 Google Gemini 3 使用的仍是 TPU v6/v7,而非 Blackwell 等级的设备。虽说 Google 在使用 TPU v6/v7 的状态下就能训练出 Gemini 3 这类高水准模型,但随着 Blackwell 系列大规模推出,两种架构之间的性能差异会越来越明显。
TPU 曾是最低成本王,但 GB300 将改写局面
Baker 表示,TPU 过去最关键的优势,就是拥有全世界最低的训练成本。而且 Google 确实使用这项优势,压缩竞争对手的募资与营运空间。
但 Baker 指出,一旦 GB300 大规模部署,市场上成本最低的训练平台会转向采用 GB300 的公司,尤其是像 XAI 这种具备垂直整合能力、自建机房的团队。而 OpenAI 如果未来能突破算力瓶颈,具备自建硬体能力,也可能加入 GB300 阵营。
这代表,一旦 Google 不再掌握成本领先地位,先前的低价策略将难以维持。训练成本的主导权,也会从长期由 TPU 掌控,转变为由 GB300 重新分配。
GPU 扩展协同速度更快,TPU 整合负担较重
大模型的进展越快,对大规模 GPU 协同运作的需求越高,而这也是 GPU 近年来明显压过 TPU 的关键环节之一。Baker 指出,GPU 集群透过 NVLink,可把协同规模推到 20 万到 30 万颗 GPU,让大型模型能够使用更大的训练预算。XAI 快速建置的大型资料中心,更迫使辉达提前释出优化方案,加速整个 GPU 生态的演进。
反观 TPU,由于 Google 要自行整合交换器与网络,还要协调博通与台积电的供应链,整体工程复杂度高于 GPU。
GPU 迈向一年一代,TPU 迭代受限于供应链
Baker 提到,为了应对 ASIC 的竞争压力,辉达与 AMD 都在加快更新频率,GPU 正朝「一年一代」的方向前进。这对大模型时代来说是极具优势的节奏,因为模型规模扩张几乎不会被中断。
而 TPU 的迭代速度则较为受限。从 v1 到 v4,再到 v6,每一代都花了好几年才趋于成熟。而未来的 v8、v9 更因为供应链涉及 Google、博通、台积电与其他业者,开发与迭代速度没有办法像 GPU 那么快。因此在未来 3 年内,GPU 在迭代速度上的优势将会越来越明显。
(辉达 GPU 与 Google TPU 和亚马逊 AWS 自研 AI 晶片的技术差异与未来市场走向)
三大巨头明显靠拢辉达,Google 孤守 TPU
目前全球四大前沿模型业者为 OpenAI、Gemini (Google)、Anthropic 与 xAI,但整体站队情况越来越明显偏向辉达。
Baker 表示,Anthropic 已签下 50 亿美元的辉达长期采购合约,正式与 GPU 陣营绑在一起。xAI 则是 Blackwell 的最大早期客户,并大量投资建置 GPU 机房。而 OpenAI 因为需要向外租用算力而被加价,导致成本压力过高,因此正寄望透过 Stargate 计划来解决长期的算力瓶颈。
在四家之中,Google 是唯一大量使用 TPU 的阵营,但也面临 TPU 成本竞争力下降、迭代速度较慢的压力。整体形成「三打一」的算力格局,OpenAI、Anthropic、XAI 聚集在 GPU 阵营,而 Google 在 TPU 阵营相对孤立。
(辉达财报营收亮眼:AI 数据中心业务爆发,黄仁勋:Blackwell 卖到缺货)
这篇文章 美晶片投资专家:Google TPU 暂居上风,但 NVIDIA GPU 更具长期优势 最早出现在 链新闻 ABMedia。