La guerre des modèles d'IA : de la révolution Transformer à la concurrence écologique

La "bataille des cent modèles" dans le contexte de l'engouement pour les grands modèles d'IA

Le mois dernier, une "guerre des animaux" a éclaté dans le domaine de l'IA. D'un côté se trouve Llama de Meta, qui est très apprécié des développeurs en raison de sa nature open source. Après avoir examiné le document et le code de Llama, la société japonaise NEC a rapidement développé une version japonaise de ChatGPT, résolvant ainsi le goulet d'étranglement du développement de l'IA au Japon.

L'autre partie est un grand modèle appelé Falcon. En mai de cette année, Falcon-40B a été lancé, surpassant Llama et occupant la première place du classement des LLM open source. Ce classement est réalisé par la communauté des modèles open source, qui fournit des critères d'évaluation des capacités des LLM et un classement. Llama et Falcon se sont alternés en tête du classement.

Après la sortie de Llama 2, il a temporairement repris la première place ; mais début septembre, Falcon a lancé la version 180B, obtenant à nouveau un meilleur classement.

Il est intéressant de noter que les développeurs de Falcon sont l'Institut de recherche sur l'innovation technologique d'Abou Dhabi, la capitale des Émirats, et non une entreprise technologique. Les autorités des Émirats ont déclaré que leur participation à la compétition de l'IA vise à renverser l'ordre établi.

Le lendemain de la sortie du Falcon 180B, le ministre émirati de l'intelligence artificielle a été sélectionné parmi les "100 personnes les plus influentes dans le domaine de l'IA" par le magazine Time, aux côtés de personnalités telles que le "parrain de l'IA" Geoffrey Hinton et Sam Altman d'OpenAI.

Aujourd'hui, le domaine de l'IA est entré dans une phase d'épanouissement. Les pays et les entreprises disposant de ressources financières tentent de créer leur propre version de ChatGPT. Rien qu'au sein de la région du Golfe, plusieurs acteurs sont déjà présents. En août, l'Arabie Saoudite a acheté plus de 3000 puces H100 pour les universités nationales, afin de former des LLM.

L'investisseur Zhu Xiaohu a commenté qu'à l'époque, les startups Internet étaient considérées comme manquant de barrières, et aujourd'hui, les startups de modèles de grande technologie se sont également transformées en une bataille de centaines de modèles.

Pourquoi la technologie dure, qui était autrefois considérée comme ayant un seuil d'entrée élevé, est-elle devenue un projet que tous les pays s'efforcent de développer ?

Le Transformateur déclenche la révolution de l'IA

Quelle que soit la nationalité, les modèles de grande taille actuels, y compris la série GPT, sont tous basés sur l'algorithme Transformer. En 2017, huit scientifiques de Google ont publié l'algorithme Transformer dans l'article "Attention Is All You Need", qui est devenu le troisième article le plus cité dans l'histoire de l'IA, et qui est également la clé de cette vague actuelle d'IA.

Auparavant, "faire lire des machines" a toujours été un défi pour le milieu académique. Contrairement à la reconnaissance d'images, la lecture humaine intègre la compréhension du contexte. Les premiers réseaux de neurones avaient du mal à comprendre les longs textes, ce qui entraînait souvent des problèmes de traduction.

En 2014, le scientifique de Google Ilya a proposé des réseaux de neurones récurrents (RNN) pour le traitement du langage naturel, améliorant considérablement les performances de Google Traduction. Les RNN introduisent un "design récurrent", permettant aux réseaux de neurones de combiner le contexte.

Les RNN ont suscité l'enthousiasme dans le monde académique, mais présentent des problèmes d'efficacité et de difficulté à traiter un grand nombre de paramètres. À partir de 2015, des chercheurs comme Vaswani ont commencé à développer des alternatives aux RNN, aboutissant finalement à la création du Transformer.

Le Transformer présente deux grandes améliorations par rapport aux RNN : d'une part, il remplace la conception récurrente par un codage de position, permettant un calcul parallèle et augmentant considérablement l'efficacité de l'entraînement ; d'autre part, il renforce encore la capacité de compréhension du contexte. Le Transformer a résolu de nombreux problèmes et est devenu progressivement la solution dominante dans le domaine du NLP.

En 2019, OpenAI a développé GPT-2 basé sur Transformer, choquant le monde académique. Google a immédiatement lancé Meena, qui surpasse GPT-2 uniquement en augmentant les paramètres et la puissance de calcul. L'avènement de Transformer a ralenti la vitesse d'innovation des algorithmes, les éléments techniques tels que les données, la puissance de calcul et l'architecture des modèles étant devenus clés dans la compétition en IA.

Le scientifique en informatique Andrew Ng estime que l'IA devient une technologie générale, tout comme l'électricité et l'internet. L'agence d'analyse Semi Analysis prévoit que d'autres grandes entreprises technologiques devraient bientôt développer des modèles de grande taille comparables à la performance de GPT-4.

Les défis derrière la bataille des cent modèles

À la fin du mois de juillet de cette année, le nombre de grands modèles en Chine a atteint 130, dépassant les 114 des États-Unis. En dehors de la Chine et des États-Unis, d'autres pays riches commencent également à développer des grands modèles locaux, comme Bhashini en Inde et HyperClova X de Naver en Corée.

Cette situation rappelle l'époque de la bulle internet. Bien que le Transformer ait abaissé la barre d'entrée pour le développement de grands modèles, cela ne signifie pas que tout le monde peut devenir un géant de l'IA. Prenons l'exemple de "Animal Warfare", bien que Falcon ait remporté une meilleure position au classement, son impact sur Meta reste limité.

Pour les grands modèles open source, une communauté de développeurs active est la véritable force concurrentielle. Meta a établi une stratégie open source dès 2015. En octobre, Meta a également lancé l'initiative "AI Creator Incentives", finançant les développeurs utilisant Llama 2 pour résoudre des problèmes sociaux.

Actuellement, la série Llama de Meta est devenue le baromètre des LLM open source. Au début d'octobre, 8 des 10 premiers du classement de Hugging Face étaient basés sur Llama 2, et plus de 1500 LLM utilisent son protocole open source.

Bien que l'amélioration des performances soit une voie possible, la plupart des LLM présentent encore un écart évident par rapport à GPT-4. Dans le test AgentBench, GPT-4 arrive en tête avec un score de 4,41, tandis que Claude est en deuxième position avec seulement 2,77, et les LLM open-source se situent généralement autour de 1 point. Cet écart provient de la force de l'équipe d'OpenAI et de l'expérience accumulée sur le long terme.

Ainsi, la principale force concurrentielle des grands modèles réside dans la construction d'écosystèmes ( open source ) ou purement des capacités d'inférence ( closed source ). Avec le développement de la communauté open source, les performances des LLM pourraient converger. La question plus directe est que, à part Midjourney, il semble qu'aucun grand modèle n'ait encore réussi à générer des profits.

Le dilemme de l'ancrage de valeur

En août de cette année, un article prédisant qu'OpenAI pourrait faire faillite d'ici la fin de 2024 a suscité l'attention. L'article souligne qu'après le développement de ChatGPT, les pertes d'OpenAI se sont rapidement accentuées, avec une perte d'environ 540 millions de dollars en 2022, dépendant des investissements de Microsoft. Cela reflète le problème d'un déséquilibre entre les coûts et les revenus auquel sont confrontés les fournisseurs de grands modèles.

Les coûts élevés font que les principaux bénéficiaires sont actuellement des fabricants de puces comme Nvidia. Selon Omdia, Nvidia a vendu plus de 300 000 puces H100 au deuxième trimestre, ce qui équivaut au poids de 4,5 avions Boeing 747. Les performances de Nvidia ont fortement augmenté, le prix de revente des H100 ayant grimpé à 40 000-50 000 dollars, alors que le coût n'est que de plus de 3 000 dollars.

Le coût de la puissance de calcul est devenu un frein au développement de l'industrie. Sequoia Capital estime que les entreprises technologiques du monde entier dépenseront 200 milliards de dollars par an pour construire des infrastructures de grands modèles, tandis que le revenu annuel des grands modèles ne s'élève qu'à 75 milliards de dollars, laissant un déficit d'au moins 125 milliards de dollars.

La plupart des entreprises de logiciels n'ont toujours pas trouvé de modèle de rentabilité après avoir investi des sommes considérables. Même des géants comme Microsoft et Adobe sont confrontés à des défis. GitHub Copilot, en collaboration avec OpenAI, perd entre 20 et 80 dollars par utilisateur et par mois. Adobe a introduit un système de points pour l'outil Firefly AI, limitant l'utilisation excessive par les utilisateurs.

La plupart des applications principales des grands modèles restent limitées à la conversation. Bien qu'OpenAI et ChatGPT aient propulsé la révolution de l'IA, la valeur de la simple formation de grands modèles est discutable. Avec l'intensification de la concurrence homogène et l'augmentation des modèles open source, l'espace des fournisseurs de grands modèles purs pourrait se réduire encore davantage.

Tout comme le succès de l'iPhone 4 ne réside pas dans le processeur A4, mais dans son écosystème d'applications, l'avenir des grands modèles dépendra également de la valeur qu'ils créent dans des applications concrètes.

GPT7%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • 6
  • Partager
Commentaire
0/400
NoodlesOrTokensvip
· 07-25 10:23
Je ne m'attendais pas à ce que les Émirats arabes unis soient impliqués dans la bataille des cent modèles d'IA.
Voir l'originalRépondre0
PumpBeforeRugvip
· 07-24 05:35
On ne sait pas encore qui sera le dernier gagnant, c'est difficile à dire~
Voir l'originalRépondre0
SlowLearnerWangvip
· 07-24 05:33
Qu'est-ce que c'est ? Personne n'a gagné dans un combat d'animaux.
Voir l'originalRépondre0
BankruptcyArtistvip
· 07-24 05:26
Ces paramètres d'enroulement mutuel ne vaudraient pas mieux que de créer un grand modèle qui se connecte à un grand modèle.
Voir l'originalRépondre0
SocialAnxietyStakervip
· 07-24 05:21
À quoi bon faire monter son classement, ce n'est pas un match de classement.
Voir l'originalRépondre0
ChainDetectivevip
· 07-24 05:13
C'est comme un classement de jeu vidéo.
Voir l'originalRépondre0
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)