Expert en investissement dans les semi-conducteurs : Google TPU reste en tête temporairement, mais le GPU NVIDIA offre un avantage à long terme

2025-12-10 10:55:21

Les experts en investissements dans les semi-conducteurs Gavin Baker analysent en profondeur les différences entre le GPU Hopper, Blackwell( de NVIDIA et le TPU de Google, notamment sous l’angle technique, de la performance, du coût et de la collaboration. Il souligne que le TPU de Google détient un avantage temporaire à court terme, mais que sur le long terme, l’écosystème GPU de NVIDIA conserve une domination plus forte.

Le GPU est une plateforme de bout en bout, le TPU est un ASIC dédié

Baker indique que la divergence entre les accélérateurs IA apparaît dès la conception fondamentale. Les GPU de NVIDIA, du Hopper, Blackwell au futur Rubin, insistent tous sur une plateforme complète, allant du GPU lui-même, à la technologie de connexion bidirectionnelle NVLink, aux cartes réseau, commutateurs, ainsi qu’aux logiciels comme CUDA et TensorRT, entièrement gérés par NVIDIA. Lorsqu’une entreprise achète un GPU, elle obtient un environnement complet prêt à l’emploi pour l’entraînement et l’inférence, sans avoir à assembler ses propres réseaux ou réécrire des logiciels.

En comparaison, le TPU de Google )v4(, v5e, v6, v7) sont essentiellement des circuits intégrés spéciaux ASIC, conçus spécifiquement pour accélérer des calculs IA particuliers. Google s’occupe de la conception logique en front-end, mais la fabrication en back-end est confiée à Broadcom(, puis produite par TSMC). Les autres composants indispensables du TPU, comme les commutateurs, cartes réseau et l’écosystème logiciel, doivent être intégrés par Google lui-même, rendant la chaîne d’approvisionnement beaucoup plus complexe que pour le GPU.

Globalement, l’avantage du GPU ne réside pas dans la performance d’un seul chip, mais dans la complétude de la plateforme et de l’écosystème. C’est là que la différence de compétition devient de plus en plus évidente.

La performance de Blackwell progresse rapidement, le TPU v6/v7 fait face à une pression accrue

Baker indique qu’en 2024–2025, l’écart de performance entre GPU et TPU deviendra encore plus marqué. Le GB200 à GB300 de Blackwell représente une avancée majeure en architecture, passant à un refroidissement liquide, avec une consommation électrique d’environ 130 kW par rack, une complexité sans précédent. La mise en déploiement massif n’est pas attendue avant encore trois ou quatre mois, étant encore à un stade très récent.

La prochaine génération, GB300, pourra s’insérer directement dans les racks GB200, ce qui accélérera la vitesse d’expansion des entreprises. Parmi elles, xAI, qui construit des centres de données rapidement, est considérée comme le premier client capable d’exploiter pleinement la puissance de Blackwell. Baker compare :

« Si Hopper est comme un avion de la Seconde Guerre mondiale, le TPU v6/v7 est comme le F-4 Phantom, une génération deux au-dessus. Et Blackwell, c’est comme le F-35, de niveau totalement différent. »

Cela illustre que le TPU v6/v7 et le Blackwell ne sont pas au même niveau matériel, et indique que pour l’instant, Google Gemini 3 utilise encore du TPU v6/v7, contrairement aux appareils Blackwell ou équivalents. Bien que Google puisse entraîner des modèles de haut niveau comme Gemini 3 avec TPU v6/v7, la sortie en masse de la série Blackwell accentuera la différence de performance entre ces deux architectures.

Le TPU était le roi du coût minimal, mais le GB300 va changer la donne

Baker explique que, historiquement, l’atout principal du TPU était son coût d’entraînement le plus bas au monde. Google a exploité cet avantage pour limiter la levée de fonds et les coûts opérationnels de ses concurrents.

Mais Baker souligne qu’avec le déploiement massif du GB300, la plateforme d’entraînement la moins chère du marché sera celle adoptant le GB300, notamment pour des équipes comme xAI, capables d’intégrer verticalement leur infrastructure. Si OpenAI parvient à surmonter ses limites de puissance de calcul et à construire ses propres équipements, elle pourrait également rejoindre la camp du GB300.

Cela signifie qu’une fois que Google ne conservera plus son avantage en coût, sa stratégie de prix bas sera difficile à maintenir. La maîtrise des coûts d’entraînement passera alors du TPU à nouveau à la répartition par le GB300 à long terme.

L’expansion et la collaboration pour GPU plus rapides, la charge d’intégration pour TPU plus lourde

Plus les modèles sont grands, plus la nécessité d’une collaboration à grande échelle entre GPUs est importante. C’est aussi une raison clé pour laquelle le GPU a récemment surpassé le TPU. Baker indique que les clusters GPU via NVLink peuvent atteindre une échelle de 200 000 à 300 000 GPU, permettant d’allouer davantage de budget à l’entraînement de modèles de grande taille. Les centres de données rapidement construits par xAI contraignent NVIDIA à sortir des solutions optimisées plus tôt, accélérant l’évolution de l’écosystème GPU.

À l’inverse, le TPU requiert une intégration autonome des commutateurs et des réseaux, et doit coordonner la chaîne d’approvisionnement de Broadcom et TSMC, rendant l’ingénierie plus complexe que pour le GPU.

Le GPU évolue vers une nouvelle génération annuelle, le TPU voit ses itérations limitées par la chaîne d’approvisionnement

Baker mentionne que, pour répondre à la pression concurrentielle des ASIC, NVIDIA et AMD accélèrent leur rythme de mise à jour, avec des GPU qui deviennent une génération annuelle. Cela constitue un avantage crucial dans l’ère des grands modèles, où l’expansion de la taille des modèles ne sera presque pas interrompue.

En revanche, la cadence d’innovation du TPU est plus limitée. De v1 à v4, puis v6, chaque génération a pris plusieurs années pour mûrir. Les futures v8, v9 seront encore plus dépendantes de la chaîne d’approvisionnement impliquant Google, Broadcom, TSMC et d’autres acteurs, ce qui ralentira leur développement et leur itération, par rapport au GPU. Dans les trois prochaines années, l’avantage du GPU en termes de rythme d’innovation deviendra de plus en plus évident.

(Différences technologiques entre le GPU NVIDIA, le TPU Google et les puces IA auto-développées d’Amazon AWS, et perspectives futures du marché)

Les trois géants se rapprochent nettement de NVIDIA, Google reste seul avec le TPU

Actuellement, les quatre principaux acteurs des modèles avancés dans le monde sont OpenAI, Gemini (Google), Anthropic et xAI, mais la tendance de leur positionnement s’oriente de plus en plus vers NVIDIA.

Baker indique qu’Anthropic a signé un contrat d’approvisionnement à long terme de 5 milliards de dollars avec NVIDIA, liant ainsi définitivement son avenir à la plateforme GPU. xAI est le plus grand client précoce de Blackwell, investissant massivement dans ses centres de données GPU. Quant à OpenAI, confrontée à des coûts élevés pour louer des capacités de calcul externes, elle espère résoudre ses contraintes de puissance à long terme grâce au projet Stargate.

Parmi ces quatre acteurs, Google est le seul à utiliser massivement le TPU, mais il doit faire face à une baisse de compétitivité en termes de coût, et à une vitesse d’itération plus lente. La compétition s’organise donc selon un schéma « trois contre un », avec OpenAI, Anthropic et XAI dans le camp des GPU, tandis que Google reste relativement isolé dans la camp du TPU.

(Les résultats financiers de NVIDIA montrent un fort rebond : explosion des revenus du centre de données IA, Huang Renxun : Blackwell en rupture de stock)

Cet article intitulé « Investisseurs en semi-conducteurs : le TPU de Google est temporairement en tête, mais le GPU de NVIDIA possède un avantage à long terme » a été publié pour la première fois sur Chain News ABMedia.

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.