# AI x Crypto: ゼロからピークまで## はじめに最近、AI業界の発展は一部の人々によって第四次産業革命と見なされています。大規模モデルの登場は各業界の効率を大幅に向上させ、GPTはアメリカの作業効率を約20%向上させたと推定されています。大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされており、過去の精密なコード設計は、より一般化された大規模モデルフレームワークがソフトウェアに組み込まれることに変わり、ソフトウェアはより良いパフォーマンスを持ち、より広範なモダリティの入力と出力をサポートできるようになっています。深層学習技術は確かにAI業界にも第四次の繁栄をもたらし、この流れは暗号通貨業界にも影響を与えています。本報告はAI業界の発展の歴史、技術の分類、そして深層学習技術の発明が業界に与える影響について詳しく探求します。次に、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流を深く分析し、その発展状況とトレンドを考察します。その後、本質的にCryptoとAI業界の関係を探求し、Crypto関連のAI産業チェーンの構造を整理します。! [新人科学丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-7e025deb1fddcd5fa716b6f144701074)## AI業界の歴史AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、さまざまな人工知能を実現する流派を発展させてきました。現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに基づいてタスクを繰り返し改善し、システムの性能を向上させることです。主なステップは、データをアルゴリズムに送信し、このデータを使用してモデルをトレーニングし、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。現在、機械学習には主に三つの流派があり、それぞれ接続主義、シンボリズム、行動主義であり、人間の神経系、思考、行動を模倣しています。現在、神経ネットワークを代表とする結合主義が優位に立っており(、深層学習とも呼ばれています)。その主な理由は、このアーキテクチャには入力層と出力層があり、複数の隠れ層が存在するためです。層の数や神経元(のパラメータ)の数が十分に多ければ、複雑な汎用タスクにフィットする機会が十分にあります。データを入力することで、神経元のパラメータを継続的に調整でき、最終的に多くのデータを経た後、その神経元は最適な状態(のパラメータ)に達します。これが「深層」という言葉の由来でもあります - 十分な層の数と神経元。! [新参者科学人気丨AI×暗号:ゼロからピークまで](https://img-cdn.gateio.im/social/moments-c50ee5a87373c6cd6c4dc63adc2cf47c)簡単に言うと、関数を構築したということです。この関数には、X=2のときY=3、X=3のときY=5という入力があります。すべてのXに対応するためには、この関数の次数やそのパラメータを追加し続ける必要があります。例えば、この条件を満たす関数をY = 2X -1と構築できます。しかし、もしX=2、Y=11というデータがある場合は、この3つのデータポイントに合った関数を再構築する必要があります。GPUを使用してブルートフォースで解決した結果、Y = X2 -3X +5が比較的適切であることが分かりましたが、データと完全に一致する必要はなく、バランスを保ちながらおおよそ似た出力であれば十分です。ここで、X2やX、X0は異なるニューロンを表し、1、-3、5はそのパラメータを表しています。この時、大量のデータを神経ネットワークに入力すると、ニューロンを増やしたり、パラメータを反復させたりして新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。神経ネットワークに基づく深層学習技術には、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化があります。最終的には、GPTなどの現代の大規模モデルで使用されるTransformer技術に進化しました。Transformer技術は神経ネットワークの一つの進化の方向であり、変換器(Transformer)を追加して、音声、動画、画像などのすべてのモダリティ(のデータを対応する数値にエンコードして表現します。それから、これを神経ネットワークに入力することで、神経ネットワークはあらゆるタイプのデータをフィットさせることができ、すなわち多モダリティを実現します。AIの発展は三回の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提唱されてから十年後のことです。この波はシンボリズム技術の発展によって引き起こされ、一般的な自然言語処理や人間と機械の対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の監督のもとで完成したDENRAL専門家システムであり、このシステムは非常に強力な化学の知識を持っています。問題を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学の知識ベースと推論システムの結合として見ることができます。専門家システムの後、1990年代にイスラエル系アメリカの科学者であり哲学者であるジュディア・パール)Judea Pearl(は、ベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を示しました。1997年、IBMのディープブルーが3.5:2.5でチェスチャンピオンのカスパロフ)Kasparov(に勝利した。この勝利は人工知能の一つのマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えた。第三次AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、およびYoshua Bengioは、人工神経ネットワークを基盤とし、データを表現学習するアルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformerおよびStable Diffusionに至り、これらの二つのアルゴリズムがこの第三の技術の波を形作りました。また、これは連結主義の全盛期でもあります。多くの象徴的な出来事は、ディープラーニング技術の探求と進化に伴って徐々に現れています。* 2011年、IBMのワトソン)は「危険な縁」(のクイズ番組で人間に勝利し、チャンピオンになりました。* 2014年、GoodfellowはGAN)生成対抗ネットワーク、Generative Adversarial Network(を提案し、2つのニューラルネットワークが相互に競い合うことで学習し、真に迫った写真を生成できるようになりました。同時にGoodfellowは『Deep Learning』という本を書き、これは花書と呼ばれ、深層学習分野の重要な入門書の一つです。* 2015年、ヒントンらは『ネイチャー』誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界において直ちに大きな反響を呼びました。* 2015年、OpenAIが設立され、マスク、YC社長のアルトマン、エンジェル投資家のピーター・ティール)ピーター・ティール(らが共同で10億ドルの出資を発表した。* 2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンであるプロ九段棋士の李世石と囲碁の人間対コンピュータ戦を行い、4対1の総スコアで勝利しました。* 2017年、中国香港のハンソンロボティクス社)Hanson Robotics(が開発したヒューマノイドロボット、ソフィアは、歴史上初めて一等市民の地位を得たロボットとして知られ、豊かな表情と人間の言語理解能力を備えています。* 2017年、人工知能の分野で豊富な才能と技術的予備力を持つGoogleは、Transformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT)Generative Pre-trained Transformer(をリリースしました。* 2018年、GoogleチームのDeepmindが深層学習に基づくAlphaGoを発表し、タンパク質の構造予測が可能になり、人工知能分野の大きな進歩の象徴と見なされています。* 2019年、OpenAIはGPT-2を発表し、このモデルは15億のパラメータを備えています。* 2020年、OpenAIが開発したGPT-3は、1750億のパラメータを持ち、以前のバージョンであるGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用してトレーニングされ、複数のNLP)自然言語処理(タスク)の解答、翻訳、記事作成(において最先端の性能を達成することができます。* 2021年、OpenAIはGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。* 2023年1月にGPT-4モデルに基づくChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。※2024年、OpenAIはGPT-4 omniを発売します。! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/social/moments-0c9bdea33a39a2c07d1f06760ed7e804(## ディープラーニング産業チェーン現在、大規模なモデル言語で使用されているのは、すべて神経ネットワークに基づく深層学習方法です。GPTを筆頭とする大規模モデルは、人工知能の熱潮を生み出し、多くのプレーヤーがこの分野に参入しました。市場ではデータや計算力の需要が急増していることがわかります。このレポートのこの部分では、深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界では、その上下流はどのように構成されているのか、また上下流の現状や供給と需要の関係、未来の発展はどのようになるのかを探ります。まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs)大規模モデル(のトレーニングは、合計で3つのステップに分かれているということです。トレーニングの前に、Transformerに基づいているため、コンバータはテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後これらの数値はトークンと呼ばれます。一般的な経験則に従えば、英単語または文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これもGPTの料金計算に使用される基本単位です。第一歩、プレトレーニング。入力層に十分なデータペアを与えることによって、報告の第一部で示された)X,Y(のように、このモデルの下で各ニューロンの最適なパラメータを見つける。この時、大量のデータが必要であり、このプロセスは最も計算能力を消費するプロセスでもある。なぜなら、ニューロンが様々なパラメータを試行するために繰り返し反復されるからである。一批のデータペアのトレーニングが完了した後、一般的には同じデータセットを使用してパラメータを反復するために二次トレーニングが行われる。第二ステップ、ファインチューニング。ファインチューニングは、少量だが非常に高品質なデータを与えてトレーニングすることです。このような変更により、モデルの出力の質が向上します。なぜなら、事前トレーニングには大量のデータが必要ですが、多くのデータにはエラーや低品質のものが含まれている可能性があるからです。ファインチューニングのステップは、高品質なデータを通じてモデルの品質を向上させることができます。第三ステップ、強化学習。まず全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果を順位付けすることです。したがって、このモデルの実現は比較的簡単です。なぜなら、ビジネスシーンは比較的垂直だからです。その後、このモデルを用いて我々の大規模モデルの出力が高品質であるかどうかを判断します。これにより、報酬モデルを使用して大規模モデルのパラメータを自動的に反復更新することができます。)しかし、時には人間の介入が必要で、モデルの出力品質を評価する必要があります(簡単に言うと、大規模モデルのトレーニングプロセスにおいて、事前トレーニングはデータの量に非常に高い要求があり、必要なGPU計算力も最も多く、ファインチューニングにはパラメータを改善するためにより高品質なデータが必要です。強化学習は報酬モデルを通じてパラメータを反復的に調整し、より高品質な結果を出力することができます。トレーニングの過程では、パラメータが多ければ多いほど、その一般化能力の天井は高くなります。例えば、関数の例で言えば、Y = aX + bの場合、実際には2つのニューロンXとX0があります。したがって、パラメータがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、それは本質的に1本の直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復することができ、より多くのデータにフィットできるようになります。これが大規模モデルが奇跡を生む理由であり、また大規模モデルという名称の一般的な理由でもあります。本質的には、膨大な数のニューロンとパラメータ、膨大なデータが必要であり、同時に膨大な計算能力も必要です。したがって、大規模モデルのパフォーマンスに影響を与えるのは主に3つの要素、すなわちパラメータの数、データの量と質、計算能力です。この3つは共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークン数で計算すると(、一般的な経験則を用いて必要な計算量を計算することができ、これにより購入すべき計算能力やトレーニング時間を大まかに見積もることができます。計算能力は一般的にFlopsを基本単位として表され、これは1回の浮動小数点演算を示します。浮動小数点演算は、非整数の数値の加減乗除を総称したもので、例えば2.5+3.557のようなものです。浮動小数点は小数点を持つことができることを示し、FP16は小数をサポートする精度を表し、FP32は一般的により一般的な精度です。実践的な経験則に基づいて、事前訓練
AIと暗号化技術の統合:開発プロセスから業界チェーンの包括的な分析まで
AI x Crypto: ゼロからピークまで
はじめに
最近、AI業界の発展は一部の人々によって第四次産業革命と見なされています。大規模モデルの登場は各業界の効率を大幅に向上させ、GPTはアメリカの作業効率を約20%向上させたと推定されています。大規模モデルがもたらす一般化能力は新しいソフトウェア設計のパラダイムと見なされており、過去の精密なコード設計は、より一般化された大規模モデルフレームワークがソフトウェアに組み込まれることに変わり、ソフトウェアはより良いパフォーマンスを持ち、より広範なモダリティの入力と出力をサポートできるようになっています。深層学習技術は確かにAI業界にも第四次の繁栄をもたらし、この流れは暗号通貨業界にも影響を与えています。
本報告はAI業界の発展の歴史、技術の分類、そして深層学習技術の発明が業界に与える影響について詳しく探求します。次に、深層学習におけるGPU、クラウドコンピューティング、データソース、エッジデバイスなどの産業チェーンの上下流を深く分析し、その発展状況とトレンドを考察します。その後、本質的にCryptoとAI業界の関係を探求し、Crypto関連のAI産業チェーンの構造を整理します。
! 新人科学丨AI×暗号:ゼロからピークまで
AI業界の歴史
AI業界は20世紀50年代に始まり、人工知能のビジョンを実現するために、学術界と産業界は異なる時代や異なる学問的背景の下で、さまざまな人工知能を実現する流派を発展させてきました。
現代の人工知能技術は主に「機械学習」という用語を使用しており、この技術の理念は、機械がデータに基づいてタスクを繰り返し改善し、システムの性能を向上させることです。主なステップは、データをアルゴリズムに送信し、このデータを使用してモデルをトレーニングし、モデルをテストして展開し、モデルを使用して自動化された予測タスクを完了することです。
現在、機械学習には主に三つの流派があり、それぞれ接続主義、シンボリズム、行動主義であり、人間の神経系、思考、行動を模倣しています。
現在、神経ネットワークを代表とする結合主義が優位に立っており(、深層学習とも呼ばれています)。その主な理由は、このアーキテクチャには入力層と出力層があり、複数の隠れ層が存在するためです。層の数や神経元(のパラメータ)の数が十分に多ければ、複雑な汎用タスクにフィットする機会が十分にあります。データを入力することで、神経元のパラメータを継続的に調整でき、最終的に多くのデータを経た後、その神経元は最適な状態(のパラメータ)に達します。これが「深層」という言葉の由来でもあります - 十分な層の数と神経元。
! 新参者科学人気丨AI×暗号:ゼロからピークまで
簡単に言うと、関数を構築したということです。この関数には、X=2のときY=3、X=3のときY=5という入力があります。すべてのXに対応するためには、この関数の次数やそのパラメータを追加し続ける必要があります。例えば、この条件を満たす関数をY = 2X -1と構築できます。しかし、もしX=2、Y=11というデータがある場合は、この3つのデータポイントに合った関数を再構築する必要があります。GPUを使用してブルートフォースで解決した結果、Y = X2 -3X +5が比較的適切であることが分かりましたが、データと完全に一致する必要はなく、バランスを保ちながらおおよそ似た出力であれば十分です。ここで、X2やX、X0は異なるニューロンを表し、1、-3、5はそのパラメータを表しています。
この時、大量のデータを神経ネットワークに入力すると、ニューロンを増やしたり、パラメータを反復させたりして新しいデータにフィットさせることができます。これにより、すべてのデータにフィットさせることができます。
神経ネットワークに基づく深層学習技術には、初期の神経ネットワーク、フィードフォワード神経ネットワーク、RNN、CNN、GANなど、複数の技術の反復と進化があります。最終的には、GPTなどの現代の大規模モデルで使用されるTransformer技術に進化しました。Transformer技術は神経ネットワークの一つの進化の方向であり、変換器(Transformer)を追加して、音声、動画、画像などのすべてのモダリティ(のデータを対応する数値にエンコードして表現します。それから、これを神経ネットワークに入力することで、神経ネットワークはあらゆるタイプのデータをフィットさせることができ、すなわち多モダリティを実現します。
AIの発展は三回の技術の波を経てきました。最初の波は20世紀60年代で、AI技術が提唱されてから十年後のことです。この波はシンボリズム技術の発展によって引き起こされ、一般的な自然言語処理や人間と機械の対話の問題を解決しました。同時期に、専門家システムが誕生しました。これはスタンフォード大学がアメリカ航空宇宙局の監督のもとで完成したDENRAL専門家システムであり、このシステムは非常に強力な化学の知識を持っています。問題を通じて推論を行い、化学の専門家と同じような答えを生成します。この化学専門家システムは、化学の知識ベースと推論システムの結合として見ることができます。
専門家システムの後、1990年代にイスラエル系アメリカの科学者であり哲学者であるジュディア・パール)Judea Pearl(は、ベイズネットワークを提案しました。このネットワークは信念ネットワークとも呼ばれています。同時期に、ブルックスは行動に基づくロボティクスを提案し、行動主義の誕生を示しました。
1997年、IBMのディープブルーが3.5:2.5でチェスチャンピオンのカスパロフ)Kasparov(に勝利した。この勝利は人工知能の一つのマイルストーンと見なされ、AI技術は第二次発展の高潮を迎えた。
第三次AI技術の波は2006年に発生しました。深層学習の三巨頭であるYann LeCun、Geoffrey Hinton、およびYoshua Bengioは、人工神経ネットワークを基盤とし、データを表現学習するアルゴリズムである深層学習の概念を提唱しました。その後、深層学習のアルゴリズムは徐々に進化し、RNN、GANからTransformerおよびStable Diffusionに至り、これらの二つのアルゴリズムがこの第三の技術の波を形作りました。また、これは連結主義の全盛期でもあります。
多くの象徴的な出来事は、ディープラーニング技術の探求と進化に伴って徐々に現れています。
2011年、IBMのワトソン)は「危険な縁」(のクイズ番組で人間に勝利し、チャンピオンになりました。
2014年、GoodfellowはGAN)生成対抗ネットワーク、Generative Adversarial Network(を提案し、2つのニューラルネットワークが相互に競い合うことで学習し、真に迫った写真を生成できるようになりました。同時にGoodfellowは『Deep Learning』という本を書き、これは花書と呼ばれ、深層学習分野の重要な入門書の一つです。
2015年、ヒントンらは『ネイチャー』誌で深層学習アルゴリズムを提案し、この深層学習手法の提案は、学術界および産業界において直ちに大きな反響を呼びました。
2015年、OpenAIが設立され、マスク、YC社長のアルトマン、エンジェル投資家のピーター・ティール)ピーター・ティール(らが共同で10億ドルの出資を発表した。
2016年、深層学習技術に基づくAlphaGoが囲碁の世界チャンピオンであるプロ九段棋士の李世石と囲碁の人間対コンピュータ戦を行い、4対1の総スコアで勝利しました。
2017年、中国香港のハンソンロボティクス社)Hanson Robotics(が開発したヒューマノイドロボット、ソフィアは、歴史上初めて一等市民の地位を得たロボットとして知られ、豊かな表情と人間の言語理解能力を備えています。
2017年、人工知能の分野で豊富な才能と技術的予備力を持つGoogleは、Transformerアルゴリズムを提案した論文「Attention is all you need」を発表し、大規模な言語モデルが登場し始めました。
※2018年、OpenAIは、当時最大級の言語モデルであったTransformerアルゴリズム上に構築されたGPT)Generative Pre-trained Transformer(をリリースしました。
2018年、GoogleチームのDeepmindが深層学習に基づくAlphaGoを発表し、タンパク質の構造予測が可能になり、人工知能分野の大きな進歩の象徴と見なされています。
2019年、OpenAIはGPT-2を発表し、このモデルは15億のパラメータを備えています。
2020年、OpenAIが開発したGPT-3は、1750億のパラメータを持ち、以前のバージョンであるGPT-2の100倍の性能を誇ります。このモデルは570GBのテキストを使用してトレーニングされ、複数のNLP)自然言語処理(タスク)の解答、翻訳、記事作成(において最先端の性能を達成することができます。
2021年、OpenAIはGPT-4を発表しました。このモデルは1.76兆のパラメータを持ち、GPT-3の10倍です。
2023年1月にGPT-4モデルに基づくChatGPTアプリケーションがリリースされ、3月にはChatGPTが1億ユーザーに達し、歴史上最も早く1億ユーザーに達したアプリケーションとなりました。
※2024年、OpenAIはGPT-4 omniを発売します。
! 【新人科学丨AI×暗号:ゼロからピークまで])https://img-cdn.gateio.im/webp-social/moments-0c9bdea33a39a2c07d1f06760ed7e804.webp(
ディープラーニング産業チェーン
現在、大規模なモデル言語で使用されているのは、すべて神経ネットワークに基づく深層学習方法です。GPTを筆頭とする大規模モデルは、人工知能の熱潮を生み出し、多くのプレーヤーがこの分野に参入しました。市場ではデータや計算力の需要が急増していることがわかります。このレポートのこの部分では、深層学習アルゴリズムの産業チェーンを探求します。深層学習アルゴリズムが主導するAI業界では、その上下流はどのように構成されているのか、また上下流の現状や供給と需要の関係、未来の発展はどのようになるのかを探ります。
まず明確にする必要があるのは、Transformer技術に基づくGPTを中心としたLLMs)大規模モデル(のトレーニングは、合計で3つのステップに分かれているということです。
トレーニングの前に、Transformerに基づいているため、コンバータはテキスト入力を数値に変換する必要があります。このプロセスは「トークン化」と呼ばれ、その後これらの数値はトークンと呼ばれます。一般的な経験則に従えば、英単語または文字はおおよそ1つのトークンと見なすことができ、各漢字はおおよそ2つのトークンと見なすことができます。これもGPTの料金計算に使用される基本単位です。
第一歩、プレトレーニング。入力層に十分なデータペアを与えることによって、報告の第一部で示された)X,Y(のように、このモデルの下で各ニューロンの最適なパラメータを見つける。この時、大量のデータが必要であり、このプロセスは最も計算能力を消費するプロセスでもある。なぜなら、ニューロンが様々なパラメータを試行するために繰り返し反復されるからである。一批のデータペアのトレーニングが完了した後、一般的には同じデータセットを使用してパラメータを反復するために二次トレーニングが行われる。
第二ステップ、ファインチューニング。ファインチューニングは、少量だが非常に高品質なデータを与えてトレーニングすることです。このような変更により、モデルの出力の質が向上します。なぜなら、事前トレーニングには大量のデータが必要ですが、多くのデータにはエラーや低品質のものが含まれている可能性があるからです。ファインチューニングのステップは、高品質なデータを通じてモデルの品質を向上させることができます。
第三ステップ、強化学習。まず全く新しいモデルを構築します。これを「報酬モデル」と呼びます。このモデルの目的は非常にシンプルで、出力結果を順位付けすることです。したがって、このモデルの実現は比較的簡単です。なぜなら、ビジネスシーンは比較的垂直だからです。その後、このモデルを用いて我々の大規模モデルの出力が高品質であるかどうかを判断します。これにより、報酬モデルを使用して大規模モデルのパラメータを自動的に反復更新することができます。)しかし、時には人間の介入が必要で、モデルの出力品質を評価する必要があります(
簡単に言うと、大規模モデルのトレーニングプロセスにおいて、事前トレーニングはデータの量に非常に高い要求があり、必要なGPU計算力も最も多く、ファインチューニングにはパラメータを改善するためにより高品質なデータが必要です。強化学習は報酬モデルを通じてパラメータを反復的に調整し、より高品質な結果を出力することができます。
トレーニングの過程では、パラメータが多ければ多いほど、その一般化能力の天井は高くなります。例えば、関数の例で言えば、Y = aX + bの場合、実際には2つのニューロンXとX0があります。したがって、パラメータがどのように変化しても、フィットできるデータは非常に限られています。なぜなら、それは本質的に1本の直線だからです。ニューロンが多ければ多いほど、より多くのパラメータを反復することができ、より多くのデータにフィットできるようになります。これが大規模モデルが奇跡を生む理由であり、また大規模モデルという名称の一般的な理由でもあります。本質的には、膨大な数のニューロンとパラメータ、膨大なデータが必要であり、同時に膨大な計算能力も必要です。
したがって、大規模モデルのパフォーマンスに影響を与えるのは主に3つの要素、すなわちパラメータの数、データの量と質、計算能力です。この3つは共同で大規模モデルの結果の質と一般化能力に影響を与えます。パラメータの数をp、データの量をn)トークン数で計算すると(、一般的な経験則を用いて必要な計算量を計算することができ、これにより購入すべき計算能力やトレーニング時間を大まかに見積もることができます。
計算能力は一般的にFlopsを基本単位として表され、これは1回の浮動小数点演算を示します。浮動小数点演算は、非整数の数値の加減乗除を総称したもので、例えば2.5+3.557のようなものです。浮動小数点は小数点を持つことができることを示し、FP16は小数をサポートする精度を表し、FP32は一般的により一般的な精度です。実践的な経験則に基づいて、事前訓練