Le développement récent de l'industrie de l'IA est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, avec une estimation selon laquelle GPT a augmenté l'efficacité du travail d'environ 20 % aux États-Unis. La capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle, le design de code précis du passé se transformant en un cadre de grands modèles plus généralisé intégré dans le logiciel, permettant au logiciel d'avoir de meilleures performances et de prendre en charge une plus large gamme d'entrées et de sorties modales. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance a également influencé l'industrie des cryptomonnaies.
Ce rapport explorera en détail l'histoire du développement de l'industrie de l'IA, la classification des technologies, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur l'industrie. Ensuite, nous analyserons en profondeur la chaîne d'approvisionnement en amont et en aval de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données, les dispositifs périphériques, ainsi que l'état de développement et les tendances actuelles. Enfin, nous examinerons essentiellement la relation entre l'industrie de la Crypto et celle de l'IA, en clarifiant la configuration de la chaîne d'approvisionnement de l'IA liée à la Crypto.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé diverses écoles de pensée pour réaliser l'intelligence artificielle, selon les différentes époques et contextes disciplinaires.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont le concept est de permettre aux machines d'itérer sur les données pour améliorer les performances du système dans les tâches. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour former le modèle, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en faveur ( également connu sous le nom d'apprentissage profond ), la principale raison étant que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) sont suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée de données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir traversé de nombreuses données, ce neurone atteindra finalement un état optimal ( paramètres ), ce qui est également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Une compréhension simple est que nous avons construit une fonction. Lorsque nous entrons X=2, Y=3 ; X=3, Y=5. Si nous voulons que cette fonction s'applique à tous les X, nous devons continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition est Y = 2X - 1. Cependant, s'il y a une donnée où X=2, Y=11, nous devons reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une recherche exhaustive, nous découvrons que Y = X2 - 3X + 5 est plutôt appropriée, mais il n'est pas nécessaire qu'elle corresponde exactement aux données, il suffit de respecter l'équilibre et de produire une sortie à peu près similaire. Dans ce contexte, X2, X et X0 représentent différents neurones, tandis que 1, -3, 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, les RNN, les CNN, les GAN, et enfin l'évolution vers les grands modèles modernes comme le GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ) pour encoder les données de tous les modes ( tels que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ensuite, ces valeurs sont entrées dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été provoquée par le développement de la technologie du symbolisme, qui a résolu les problèmes du traitement du langage naturel général et du dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, le système expert DENRAL étant achevé sous la direction de l'Université de Stanford et de la NASA. Ce système possède une très forte connaissance en chimie, inférant des réponses similaires à celles d'un expert chimiste à partir de questions. Ce système expert en chimie peut être considéré comme une combinaison de base de connaissances en chimie et de système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a introduit la robotique comportementale, marquant la naissance du behaviorisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Kasparov ) Kasparov( par un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon dans l'intelligence artificielle, marquant le début d'un nouvel essor des technologies d'IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant du RNN, au GAN, jusqu'au Transformer et au Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, et c'est également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution de la technologie d'apprentissage profond, y compris :
En 2011, le Watson) d'IBM a remporté le championnat du jeu télévisé Jeopardy( en battant des humains.
En 2014, Goodfellow a proposé le GAN), Réseau Adversarial Génératif, en apprenant par le biais d'un jeu entre deux réseaux neuronaux, capable de générer des photos d'une réalité troublante. En même temps, Goodfellow a également écrit un livre intitulé « Deep Learning », surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature". La proposition de cette méthode d'apprentissage profond a immédiatement suscité un grand écho dans le milieu académique et dans l'industrie.
En 2015, OpenAI a été créé, Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel ( Peter Thiel ) et d'autres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur des techniques d'apprentissage profond, a affronté le champion du monde de go et joueur professionnel de 9ème dan, Lee Sedol, remportant la partie avec un score total de 4 à 1.
En 2017, la société Hanson Robotics basée à Hong Kong, (Hanson Robotics), a développé le robot humanoïde Sophia, qui est considéré comme le premier robot à avoir obtenu la citoyenneté à part entière dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'un riche vivier de talents et de réserves technologiques dans le domaine de l'intelligence artificielle, publie un article intitulé « Attention is all you need » proposant l'algorithme Transformer, et les modèles linguistiques de grande envergure commencent à apparaître.
En 2018, OpenAI a publié le GPT(, un Transformateur pré-entraîné génératif) basé sur l'algorithme Transformateur, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google DeepMind a lancé AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un symbole de progrès immense dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, un modèle doté de 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel, y compris la réponse à des questions, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application à atteindre le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont suscité un engouement pour l'intelligence artificielle, attirant de nombreux acteurs vers ce secteur. Nous avons également constaté une forte demande du marché en termes de données et de puissance de calcul. Ainsi, dans cette partie du rapport, nous explorons principalement la chaîne industrielle des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment sont constitués les secteurs en amont et en aval, et quelle est la situation actuelle de ces secteurs ainsi que la relation entre l'offre et la demande, et leur développement futur.
Tout d'abord, il est important de clarifier que lors de l'entraînement des grands modèles LLMs, dirigés par GPT, basés sur la technologie Transformer, (, cela se divise en trois étapes.
Avant l'entraînement, en raison de sa base Transformer, le convertisseur doit transformer l'entrée textuelle en valeurs numériques, ce processus est appelé "Tokenization". Ensuite, ces valeurs sont appelées Token. Selon une règle d'expérience générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être approximativement considéré comme deux Tokens. C'est également l'unité de base utilisée pour le calcul de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport )X,Y(, pour trouver les meilleurs paramètres de chaque neurone sous ce modèle, il faut beaucoup de données à ce moment-là, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite de faire plusieurs itérations avec les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données a été formé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le fine-tuning. Le fine-tuning consiste à utiliser un petit lot de données de très haute qualité pour l'entraînement, ce qui permet d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de ces données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de qualité.
Étape trois, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", dont le but est très simple : trier les résultats de sortie. Par conséquent, la réalisation de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui nous permet d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ) Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle (.
En résumé, dans le processus d'entraînement des grands modèles, le pré-entraînement a des exigences très élevées en matière de quantité de données, et la puissance de calcul GPU nécessaire est également la plus importante. Le fine-tuning nécessite des données de meilleure qualité pour améliorer les paramètres, tandis que l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises via un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours du processus d'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons donné avec une fonction, Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi la raison pour laquelle on les appelle communément de grands modèles. En essence, cela représente un grand nombre de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une puissance de calcul massive.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de Tokens(, alors nous pouvons estimer la puissance de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permet de prévoir approximativement la puissance de calcul à acheter et le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, ce qui représente une opération flottante. L'opération flottante est un terme général pour les opérations d'addition, de soustraction, de multiplication et de division sur des valeurs non entières, comme 2.5 + 3.557. Flottant signifie capable d'avoir un point décimal, tandis que FP16 représente une précision qui prend en charge les décimales, et FP32 est une précision généralement plus courante. Selon des règles empiriques basées sur la pratique, le pré-entraînement
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
21 J'aime
Récompense
21
4
Partager
Commentaire
0/400
BearMarketSunriser
· 07-28 01:17
En d'autres termes, ceux qui font du Trading des cryptomonnaies attendent que l'IA les propulse.
Voir l'originalRépondre0
FloorSweeper
· 07-25 20:05
pssh... typiques mains faibles qui fomo sur l'engouement de l'IA rn... déjà vu ce cycle auparavant
Voir l'originalRépondre0
MindsetExpander
· 07-25 13:44
Ah ah, le code a été modifié par le grand modèle ?
Voir l'originalRépondre0
CryptoNomics
· 07-25 13:43
votre affirmation d'efficacité de 20 % manque de rigueur statistique... effectuez d'abord une véritable analyse de régression, smh
Fusion de l'IA et du chiffrement : analyse complète de l'évolution et de la chaîne d'industrie
IA x Crypto : De zéro au sommet
Introduction
Le développement récent de l'industrie de l'IA est considéré par certains comme la quatrième révolution industrielle. L'émergence de grands modèles a considérablement amélioré l'efficacité dans divers secteurs, avec une estimation selon laquelle GPT a augmenté l'efficacité du travail d'environ 20 % aux États-Unis. La capacité de généralisation apportée par les grands modèles est considérée comme un nouveau paradigme de conception logicielle, le design de code précis du passé se transformant en un cadre de grands modèles plus généralisé intégré dans le logiciel, permettant au logiciel d'avoir de meilleures performances et de prendre en charge une plus large gamme d'entrées et de sorties modales. La technologie d'apprentissage profond a effectivement apporté une quatrième prospérité à l'industrie de l'IA, et cette tendance a également influencé l'industrie des cryptomonnaies.
Ce rapport explorera en détail l'histoire du développement de l'industrie de l'IA, la classification des technologies, ainsi que l'impact de l'invention des technologies d'apprentissage profond sur l'industrie. Ensuite, nous analyserons en profondeur la chaîne d'approvisionnement en amont et en aval de l'apprentissage profond, y compris les GPU, le cloud computing, les sources de données, les dispositifs périphériques, ainsi que l'état de développement et les tendances actuelles. Enfin, nous examinerons essentiellement la relation entre l'industrie de la Crypto et celle de l'IA, en clarifiant la configuration de la chaîne d'approvisionnement de l'IA liée à la Crypto.
Histoire du développement de l'industrie de l'IA
L'industrie de l'IA a commencé dans les années 1950. Pour réaliser la vision de l'intelligence artificielle, le monde académique et l'industrie ont développé diverses écoles de pensée pour réaliser l'intelligence artificielle, selon les différentes époques et contextes disciplinaires.
Les technologies modernes de l'intelligence artificielle utilisent principalement le terme "apprentissage automatique", dont le concept est de permettre aux machines d'itérer sur les données pour améliorer les performances du système dans les tâches. Les étapes principales consistent à envoyer des données à l'algorithme, à utiliser ces données pour former le modèle, à tester et déployer le modèle, puis à utiliser le modèle pour accomplir des tâches de prédiction automatisées.
Actuellement, l'apprentissage automatique se divise en trois grandes écoles : le connexionnisme, le symbolisme et le behaviorisme, qui imitent respectivement le système nerveux, la pensée et le comportement humains.
Actuellement, le connexionnisme, représenté par les réseaux de neurones, est en faveur ( également connu sous le nom d'apprentissage profond ), la principale raison étant que cette architecture a une couche d'entrée, une couche de sortie, mais plusieurs couches cachées. Une fois que le nombre de couches et de neurones ( ainsi que le nombre de paramètres ) sont suffisamment élevés, il y a suffisamment d'opportunités pour s'adapter à des tâches générales complexes. Grâce à l'entrée de données, il est possible d'ajuster continuellement les paramètres des neurones, et après avoir traversé de nombreuses données, ce neurone atteindra finalement un état optimal ( paramètres ), ce qui est également l'origine du terme "profondeur" - un nombre suffisant de couches et de neurones.
Une compréhension simple est que nous avons construit une fonction. Lorsque nous entrons X=2, Y=3 ; X=3, Y=5. Si nous voulons que cette fonction s'applique à tous les X, nous devons continuer à ajouter le degré de cette fonction et ses paramètres. Par exemple, une fonction qui satisfait cette condition est Y = 2X - 1. Cependant, s'il y a une donnée où X=2, Y=11, nous devons reconstruire une fonction adaptée à ces trois points de données. En utilisant le GPU pour une recherche exhaustive, nous découvrons que Y = X2 - 3X + 5 est plutôt appropriée, mais il n'est pas nécessaire qu'elle corresponde exactement aux données, il suffit de respecter l'équilibre et de produire une sortie à peu près similaire. Dans ce contexte, X2, X et X0 représentent différents neurones, tandis que 1, -3, 5 sont leurs paramètres.
À ce moment-là, si nous entrons une grande quantité de données dans le réseau de neurones, nous pouvons augmenter le nombre de neurones et itérer les paramètres pour ajuster les nouvelles données. Cela nous permettra d'ajuster toutes les données.
La technologie d'apprentissage profond basée sur les réseaux de neurones a également connu plusieurs itérations et évolutions techniques, telles que les premiers réseaux de neurones, les réseaux de neurones à propagation avant, les RNN, les CNN, les GAN, et enfin l'évolution vers les grands modèles modernes comme le GPT utilisant la technologie Transformer. La technologie Transformer n'est qu'une direction d'évolution des réseaux de neurones, ajoutant un convertisseur ( Transformer ) pour encoder les données de tous les modes ( tels que l'audio, la vidéo, les images, etc. ) en valeurs numériques correspondantes. Ensuite, ces valeurs sont entrées dans le réseau de neurones, permettant ainsi au réseau de neurones de s'adapter à tout type de données, réalisant ainsi le multimodal.
Le développement de l'IA a traversé trois vagues technologiques. La première vague a eu lieu dans les années 1960, une décennie après la proposition de la technologie IA. Cette vague a été provoquée par le développement de la technologie du symbolisme, qui a résolu les problèmes du traitement du langage naturel général et du dialogue homme-machine. À la même époque, les systèmes experts ont vu le jour, le système expert DENRAL étant achevé sous la direction de l'Université de Stanford et de la NASA. Ce système possède une très forte connaissance en chimie, inférant des réponses similaires à celles d'un expert chimiste à partir de questions. Ce système expert en chimie peut être considéré comme une combinaison de base de connaissances en chimie et de système d'inférence.
Après les systèmes experts, dans les années 1990, le scientifique et philosophe américain d'origine israélienne Judea Pearl ( a proposé les réseaux bayésiens, également appelés réseaux de croyance. À la même époque, Brooks a introduit la robotique comportementale, marquant la naissance du behaviorisme.
En 1997, IBM Deep Blue a battu le champion d'échecs Kasparov ) Kasparov( par un score de 3,5 à 2,5, cette victoire étant considérée comme un jalon dans l'intelligence artificielle, marquant le début d'un nouvel essor des technologies d'IA.
La troisième vague de la technologie AI a eu lieu en 2006. Les trois géants de l'apprentissage profond, Yann LeCun, Geoffrey Hinton et Yoshua Bengio, ont proposé le concept d'apprentissage profond, un algorithme basé sur des réseaux de neurones artificiels pour l'apprentissage des représentations des données. Par la suite, les algorithmes d'apprentissage profond ont progressivement évolué, passant du RNN, au GAN, jusqu'au Transformer et au Stable Diffusion, ces deux algorithmes ayant façonné cette troisième vague technologique, et c'est également l'apogée du connexionnisme.
De nombreux événements emblématiques ont également émergé progressivement avec l'exploration et l'évolution de la technologie d'apprentissage profond, y compris :
En 2011, le Watson) d'IBM a remporté le championnat du jeu télévisé Jeopardy( en battant des humains.
En 2014, Goodfellow a proposé le GAN), Réseau Adversarial Génératif, en apprenant par le biais d'un jeu entre deux réseaux neuronaux, capable de générer des photos d'une réalité troublante. En même temps, Goodfellow a également écrit un livre intitulé « Deep Learning », surnommé le livre des fleurs, qui est l'un des livres d'introduction importants dans le domaine de l'apprentissage profond.
En 2015, Hinton et al. ont proposé un algorithme d'apprentissage profond dans la revue "Nature". La proposition de cette méthode d'apprentissage profond a immédiatement suscité un grand écho dans le milieu académique et dans l'industrie.
En 2015, OpenAI a été créé, Musk, le président de YC Altman, l'investisseur providentiel Peter Thiel ( Peter Thiel ) et d'autres ont annoncé un investissement commun de 1 milliard de dollars.
En 2016, AlphaGo, basé sur des techniques d'apprentissage profond, a affronté le champion du monde de go et joueur professionnel de 9ème dan, Lee Sedol, remportant la partie avec un score total de 4 à 1.
En 2017, la société Hanson Robotics basée à Hong Kong, (Hanson Robotics), a développé le robot humanoïde Sophia, qui est considéré comme le premier robot à avoir obtenu la citoyenneté à part entière dans l'histoire, doté d'une riche gamme d'expressions faciales et de capacités de compréhension du langage humain.
En 2017, Google, qui dispose d'un riche vivier de talents et de réserves technologiques dans le domaine de l'intelligence artificielle, publie un article intitulé « Attention is all you need » proposant l'algorithme Transformer, et les modèles linguistiques de grande envergure commencent à apparaître.
En 2018, OpenAI a publié le GPT(, un Transformateur pré-entraîné génératif) basé sur l'algorithme Transformateur, qui était l'un des plus grands modèles de langage à l'époque.
En 2018, l'équipe de Google DeepMind a lancé AlphaGo basé sur l'apprentissage profond, capable de prédire la structure des protéines, considéré comme un symbole de progrès immense dans le domaine de l'intelligence artificielle.
En 2019, OpenAI a publié GPT-2, un modèle doté de 1,5 milliard de paramètres.
En 2020, OpenAI a développé GPT-3, qui possède 175 milliards de paramètres, soit 100 fois plus que la version précédente GPT-2. Ce modèle a été entraîné sur 570 Go de texte et peut atteindre des performances de pointe dans plusieurs tâches de traitement du langage naturel, y compris la réponse à des questions, la traduction et la rédaction d'articles.
En 2021, OpenAI a publié GPT-4, un modèle doté de 1,76 trillion de paramètres, soit 10 fois plus que GPT-3.
L'application ChatGPT basée sur le modèle GPT-4 a été lancée en janvier 2023, et en mars, ChatGPT a atteint 100 millions d'utilisateurs, devenant ainsi l'application à atteindre le plus rapidement 100 millions d'utilisateurs dans l'histoire.
En 2024, OpenAI lancera GPT-4 omni.
Chaîne de valeur de l'apprentissage profond
Les grands modèles de langage actuels utilisent tous des méthodes d'apprentissage profond basées sur des réseaux de neurones. Avec GPT en tête, ces grands modèles ont suscité un engouement pour l'intelligence artificielle, attirant de nombreux acteurs vers ce secteur. Nous avons également constaté une forte demande du marché en termes de données et de puissance de calcul. Ainsi, dans cette partie du rapport, nous explorons principalement la chaîne industrielle des algorithmes d'apprentissage profond. Dans l'industrie de l'IA dominée par les algorithmes d'apprentissage profond, comment sont constitués les secteurs en amont et en aval, et quelle est la situation actuelle de ces secteurs ainsi que la relation entre l'offre et la demande, et leur développement futur.
Tout d'abord, il est important de clarifier que lors de l'entraînement des grands modèles LLMs, dirigés par GPT, basés sur la technologie Transformer, (, cela se divise en trois étapes.
Avant l'entraînement, en raison de sa base Transformer, le convertisseur doit transformer l'entrée textuelle en valeurs numériques, ce processus est appelé "Tokenization". Ensuite, ces valeurs sont appelées Token. Selon une règle d'expérience générale, un mot ou un caractère anglais peut être approximativement considéré comme un Token, tandis que chaque caractère chinois peut être approximativement considéré comme deux Tokens. C'est également l'unité de base utilisée pour le calcul de GPT.
Première étape, pré-entraînement. En fournissant suffisamment de paires de données à la couche d'entrée, similaires à l'exemple donné dans la première partie du rapport )X,Y(, pour trouver les meilleurs paramètres de chaque neurone sous ce modèle, il faut beaucoup de données à ce moment-là, et ce processus est également le plus coûteux en termes de puissance de calcul, car il nécessite de faire plusieurs itérations avec les neurones en essayant divers paramètres. Une fois qu'un lot de paires de données a été formé, on utilise généralement le même lot de données pour un second entraînement afin d'itérer les paramètres.
Deuxième étape, le fine-tuning. Le fine-tuning consiste à utiliser un petit lot de données de très haute qualité pour l'entraînement, ce qui permet d'améliorer la qualité des sorties du modèle, car le pré-entraînement nécessite une grande quantité de données, mais beaucoup de ces données peuvent contenir des erreurs ou être de faible qualité. L'étape de fine-tuning peut améliorer la qualité du modèle grâce à des données de qualité.
Étape trois, apprentissage par renforcement. Tout d'abord, un tout nouveau modèle sera établi, que nous appelons "modèle de récompense", dont le but est très simple : trier les résultats de sortie. Par conséquent, la réalisation de ce modèle sera relativement simple, car le scénario commercial est assez vertical. Ensuite, nous utiliserons ce modèle pour déterminer si la sortie de notre grand modèle est de haute qualité, ce qui nous permet d'utiliser un modèle de récompense pour itérer automatiquement les paramètres du grand modèle. ) Cependant, il est parfois nécessaire d'impliquer des humains pour évaluer la qualité de la sortie du modèle (.
En résumé, dans le processus d'entraînement des grands modèles, le pré-entraînement a des exigences très élevées en matière de quantité de données, et la puissance de calcul GPU nécessaire est également la plus importante. Le fine-tuning nécessite des données de meilleure qualité pour améliorer les paramètres, tandis que l'apprentissage par renforcement peut itérer les paramètres à plusieurs reprises via un modèle de récompense pour produire des résultats de meilleure qualité.
Au cours du processus d'entraînement, plus il y a de paramètres, plus le plafond de sa capacité de généralisation est élevé. Par exemple, dans l'exemple que nous avons donné avec une fonction, Y = aX + b, il y a en réalité deux neurones, X et X0. Par conséquent, peu importe comment les paramètres varient, les données qu'ils peuvent ajuster sont extrêmement limitées, car leur essence reste une ligne droite. Si le nombre de neurones augmente, alors il est possible d'itérer davantage de paramètres, ce qui permet d'ajuster plus de données. C'est pourquoi les grands modèles produisent des miracles, et c'est aussi la raison pour laquelle on les appelle communément de grands modèles. En essence, cela représente un grand nombre de neurones et de paramètres, ainsi qu'une grande quantité de données, nécessitant également une puissance de calcul massive.
Ainsi, la performance des grands modèles est principalement déterminée par trois aspects : le nombre de paramètres, la quantité et la qualité des données, et la puissance de calcul. Ces trois facteurs influencent ensemble la qualité des résultats des grands modèles et leur capacité de généralisation. Supposons que le nombre de paramètres soit p, la quantité de données soit n) calculée en fonction du nombre de Tokens(, alors nous pouvons estimer la puissance de calcul nécessaire en utilisant des règles empiriques générales, ce qui nous permet de prévoir approximativement la puissance de calcul à acheter et le temps d'entraînement.
La puissance de calcul est généralement mesurée en Flops, ce qui représente une opération flottante. L'opération flottante est un terme général pour les opérations d'addition, de soustraction, de multiplication et de division sur des valeurs non entières, comme 2.5 + 3.557. Flottant signifie capable d'avoir un point décimal, tandis que FP16 représente une précision qui prend en charge les décimales, et FP32 est une précision généralement plus courante. Selon des règles empiriques basées sur la pratique, le pré-entraînement