AIとWeb3の融合における機会と課題:データからコンピューティングパワーへの全スタック革新

AI+Web3: タワーとプラザ

TL; 博士

  1. AIコンセプトのWeb3プロジェクトは、一次および二次市場で資金を引き付けるターゲットとなっています。

  2. Web3におけるAI業界の機会は、分散型インセンティブを使用してロングテールの潜在的な供給を調整し、データ、ストレージ、計算を横断することにあります。同時に、オープンソースモデルとAIエージェントの分散型市場を構築します。

  3. AIはWeb3業界で主にオンチェーン金融(暗号支払い、取引、データ分析)および開発支援に使用されます。

  4. AI+Web3の有用性は両者の補完性に表れています。Web3はAIの集中化に対抗することが期待され、AIはWeb3の障壁を打破するのに役立つと期待されています。

! AI+Web3: タワー&プラザ

はじめに

ここ2年、AIの発展は加速ボタンが押されたかのようです。Chatgptによって引き起こされたこの波は、生成型人工知能の新しい世界を開くだけでなく、Web3分野でも大きな波を引き起こしました。

AIの概念の後押しにより、減速している暗号市場の資金調達が明らかに活性化しています。2024年上半期だけで、64のWeb3+AIプロジェクトが資金調達を完了し、人工知能に基づくオペレーティングシステムZyber365はAラウンドで1億ドルの最高資金調達額を達成しました。

二次市場はさらに繁栄しており、Coingeckoのデータによれば、わずか1年余りの間に、AI分野の総市場価値は485億ドルに達し、24時間の取引量は約86億ドルに近づいています。主流のAI技術の進展による好影響は明らかであり、OpenAIのSoraテキストから動画へのモデルが発表された後、AIセクターの平均価格は151%上昇しました。AI効果は暗号通貨の資金調達セクターの一つであるMemeにも波及しています。最初のAIエージェントコンセプトのMemeCoinであるGOATは急速に人気を博し、14億ドルの評価を獲得し、AI Memeブームを成功裏に巻き起こしました。

AIとWeb3に関する研究と話題も同様に熱い。AI+DepinからAI Memecoin、そして現在のAIエージェントやAI DAOに至るまで、FOMOの感情は新しい物語の交代速度に追いついていない。

AI+Web3、この熱い資金、トレンド、未来の幻想に満ちた用語の組み合わせは、資本によって結びつけられた結婚と見なされるのは避けられません。この華やかなローブの下で、実際には投機家の舞台なのか、それとも夜明けの爆発の前夜なのかを見分けるのは難しいようです。

この質問に答えるために、双方にとって重要な考察は、相手がいることでより良くなるのか?相手のパターンから利益を得ることができるのか?この記事では、先人の肩に立ってこの構図を考察しようとしています:Web3はAI技術スタックの各段階でどのように機能し、AIはWeb3にどのような新たな活力をもたらすことができるのか?

Part.1 AIスタック下のWeb3にはどのような機会があるのか?

この話題を展開する前に、AI大規模モデルの技術スタックを理解する必要があります:

よりわかりやすい言葉で全体のプロセスを説明すると、「大モデル」は人間の脳のようなもので、初期段階ではこの脳は生まれたばかりの赤ちゃんに属し、周囲の膨大な情報を観察し取り込むことでこの世界を理解する必要があります。これがデータの「収集」段階です。コンピュータは人間の視覚や聴覚などの複数の感覚を持っていないため、トレーニング前に外部の大規模な無標識情報は「前処理」を通じてコンピュータが理解できる利用可能な情報形式に変換する必要があります。

データを入力すると、AIは「訓練」を通じて理解と予測能力を持つモデルを構築します。これは、赤ちゃんが外界を理解し学ぶ過程に似ています。モデルのパラメータは、赤ちゃんの学習過程で繰り返し調整される言語能力のようなものです。学習内容が分野別に分かれたり、人とのコミュニケーションからフィードバックを得て修正されたりすると、大モデルの「微調整」段階に入ります。

子供は成長し、話すことを学ぶと、新しい会話の中で意味を理解し、自分の感情や考えを表現できるようになります。この段階はAI大モデルの「推論」に似ており、モデルは新しい言語やテキスト入力に対して予測や分析を行うことができます。赤ちゃんは言語能力を通じて感情を表現し、物体を描写し、さまざまな問題を解決します。これは、AI大モデルがトレーニングを完了し、使用開始後に特定のタスクに応じて推論段階を適用することにも似ています。例えば、画像分類や音声認識などです。

AIエージェントは、次の大規模モデルの形態に近づいています——独立してタスクを実行し、複雑な目標を追求できるもので、思考能力を持つだけでなく、記憶、計画が可能で、ツールを使って世界と相互作用できるのです。

現在、AIの各スタックにおける痛点に対処するために、Web3は現在、AIモデルプロセスの各段階をカバーする多層的で相互接続されたエコシステムを初歩的に形成しています。

! AI+Web3:タワー&スクエア

1. 基本レイヤー: Airbnb (計算能力とデータ)

ハッシュレート

現在、AIの最高コストの一つは、モデルのトレーニングと推論に必要な計算力とエネルギーです。

一例として、MetaのLLAMA3は、NVIDIAが製造したH100 GPU(これはAIや高性能計算のワークロードのために設計されたトップグレードのグラフィックスプロセッサユニット)を16000個必要とし、トレーニングを完了するのに30日かかります。後者の80GBバージョンの単価は30,000ドルから40,000ドルの間であり、計算ハードウェアへの投資(GPU+ネットワークチップ)には4億から7億ドルが必要で、同時に、月間のトレーニングには16億キロワット時の消費が必要で、エネルギー支出は毎月約2000万ドルです。

AIコンピューティングの解放は、Web3が最初にAIと交差した分野、すなわちDePin(分散型物理インフラネットワーク)に他なりません。現在、DePin Ninjaデータサイトには1400以上のプロジェクトが掲載されており、その中にはGPUコンピューティングの共有を代表するプロジェクトとしてio.net、Aethir、Akash、Render Networkなどがあります。

その主な論理は、プラットフォームが余剰のGPUリソースを持つ個人または団体が、許可を必要とせずに非中央集権的な方法でその計算能力を提供できるようにすることにあります。これは、UberやAirbnbのようなバイヤーとサプライヤーのオンライン市場を通じて、十分に活用されていないGPUリソースの使用率を向上させ、エンドユーザーはより低コストで効率的な計算リソースを得ることができます。同時に、ステーキングメカニズムも、品質管理メカニズムに違反したりネットワークが中断した場合に、リソース提供者に相応の罰則が科されることを保証します。

その特徴は次のとおりです:

  • 余剰GPUリソースの集約:供給者は主に第三者の独立した中小型データセンターや暗号マイニングファームなどの運営者の過剰な計算能力リソース、コンセンサス機構はPoSのマイニングハードウェア(FileCoinやETHマイナーなど)。現在、exolabのように、MacBook、iPhone、iPadなどのローカルデバイスを利用して、大規模モデル推論の計算ネットワークを構築することを目指すプロジェクトもあります。

  • AI計算力のロングテール市場に直面して:

a.「技術的な観点から言えば」分散型計算力市場は推論ステップにより適しています。訓練は超大規模なクラスタ規模のGPUによるデータ処理能力により依存し、推論はGPUの計算性能に対して比較的低いです。例えば、Aethirは低遅延のレンダリング作業とAI推論アプリケーションに焦点を当てています。

b.「需要側において」中小規模の計算能力を持つ需要者は、自分自身の大規模モデルを単独で訓練することはなく、少数の主要な大規模モデルを中心に最適化や微調整を行うことを選択します。そして、これらのシナリオは分散型の遊休計算リソースに自然に適しています。

  • 非中央集権的所有権:ブロックチェーンの技術的意義は、リソースの所有者が常にそのリソースに対するコントロールを保持し、需要に応じて柔軟に調整し、同時に利益を得ることができることです。

データ

データはAIの基盤です。データがなければ、計算は浮遊する藻のように無意味であり、データとモデルの関係は「ゴミ入れ、ゴミ出し」という俗語のようです。データの量と入力の質が最終的なモデルの出力の質を決定します。現在のAIモデルの訓練において、データはモデルの言語能力、理解能力、さらには価値観や人間的な表現を決定します。現在、AIのデータ需要の課題は主に以下の4つの側面に集中しています:

  • データの渇望:AIモデルの訓練は大量のデータ入力に依存しています。公開情報によると、OpenAIはGPT-4の訓練において兆単位のパラメータを使用しています。

  • データの質:AIと各業界の統合が進む中で、データのタイムリーさ、データの多様性、特定分野のデータの専門性、ソーシャルメディアの感情などの新興データソースを取り入れることが、データの質に対して新たな要求を提起しています。

  • プライバシーとコンプライアンスの問題:現在、各国や企業は高品質なデータセットの重要性に徐々に気づいており、データセットのスクレイピングに制限をかけています。

  • データ処理コストが高額:データ量が多く、処理プロセスが複雑です。公開された資料によると、AI企業の30%以上の研究開発コストは基礎データの収集と処理に使われています。

現在、web3の解決策は以下の4つの側面に表れています:

1、データ収集:無料で収集できるリアルワールドデータは急速に枯渇しており、AI企業のデータへの支出は年々増加しています。しかし同時に、この支出はデータの真の提供者には還元されておらず、プラットフォームはデータから生まれる価値創造を完全に享受しています。

Web3のビジョンは、実際に貢献するユーザーがデータにもたらす価値の創造に参加し、分散型ネットワークとインセンティブメカニズムを通じて、低コストでよりプライベートで価値のあるデータを取得できることです。

  • Grassは分散型データ層およびネットワークであり、ユーザーはGrassノードを運営することで、余剰の帯域幅と中継トラフィックを提供し、インターネット全体からリアルタイムデータをキャッチし、トークン報酬を得ることができます;

  • Vanaは独自のデータ流動性プール(DLP)概念を導入しており、ユーザーは自分のプライベートデータ(ショッピング履歴、閲覧習慣、ソーシャルメディア活動など)を特定のDLPにアップロードし、これらのデータを特定の第三者に使用することを許可するかどうかを柔軟に選択できます;

  • PublicAIでは、ユーザーはX上で#AI或#Web3を分類ラベルとして使用し、@PublicAIを付けることでデータ収集を実現できます。

2、データ前処理:AIのデータ処理プロセスでは、収集されたデータが通常雑音が多く、エラーを含むため、モデルのトレーニング前にクリーンアップし、利用可能な形式に変換する必要があります。これには、標準化、フィルタリング、および欠損値の処理といった繰り返し作業が含まれます。この段階はAI業界で数少ない人手がかかる部分であり、データアノテーターという職業が派生しています。モデルがデータ品質に対する要求を高めるにつれて、データアノテーターの敷居も上がっていますが、このタスクは自然にWeb3の分散型インセンティブメカニズムに適しています。

  • 現在、GrassとOpenLayerはデータアノテーションという重要なプロセスに参加することを検討しています。

  • Synesisは「Train2earn」の概念を提唱し、データの質を強調しています。ユーザーは、ラベリングデータ、注釈、または他の形式の入力を提供することで報酬を得ることができます。

  • データラベリングプロジェクトSapienは、ラベリングタスクをゲーム化し、ユーザーがポイントをステーキングしてより多くのポイントを獲得できるようにします。

3、データプライバシーとセキュリティ:明確にしておくべきことは、データプライバシーとセキュリティは異なる概念であるということです。データプライバシーは敏感なデータの取り扱いに関わり、データセキュリティはデータ情報を無許可のアクセス、破壊、盗難から保護します。したがって、Web3プライバシー技術の利点と潜在的な応用シナリオは、次の2つの側面に表れています:(1)敏感データのトレーニング;(2)データ協力:複数のデータ所有者が自分の原データを共有することなくAIトレーニングに共同で参加できます。

現在のWeb3で一般的なプライバシー技術には、

  • Trusted Execution Environment (TEE) (Super Protocol など)

  • 完全準同型暗号化(BasedAI、Fhenix.io、Inco NetworkなどのFHE)。

  • ゼロ知識技術(zk)、例えばReclaim ProtocolはzkTLS技術を使用して、HTTPSトラフィックのゼロ知識証明を生成し、ユーザーが外部サイトから活動、評判、そしてアイデンティティデータを安全にインポートできるようにし、敏感な情報を露出することなく行います。

しかし、現在この分野はまだ初期段階にあり、ほとんどのプロジェクトはまだ探索中です。現在の困難の一つは、計算コストが非常に高いことです。いくつかの例は次のとおりです:

  • zkMLフレームワークEZKLは、1M-nanoGPTモデルの証明を生成するのに約80分かかります。

  • Modulus Labsのデータによると、zkMLのオーバーヘッドは純粋な計算よりも1000倍以上高い。

4、データストレージ:データが得られた後、データをブロックチェーン上に保存する場所と、そのデータから生成されるLLMが必要です。データの可用性(DA)を中心に問題を考えると、イーサリアムのDankshardingアップグレード前のスループットは0.08MBでした。一方で、AIモデルのトレーニングとリアルタイム推論には通常、毎秒50〜100GBのデータスループットが必要です。このオーダーの差は、既存のオンチェーンソリューションが「リソース集約型のAIアプリケーションに直面したとき」に無力であることを示しています。

  • 0g.AIはこのカテゴリの代表的なプロジェクトです。これはAIの高性能なニーズに対応するために設計された集中型ストレージソリューションです。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 5
  • リポスト
  • 共有
コメント
0/400
RektCoastervip
· 17時間前
概念を吹聴するのはやめて、まずは実用的なアプリを作ろう。
原文表示返信0
degenonymousvip
· 17時間前
人をカモにした初心者でなければ理想を語れないよ
原文表示返信0
not_your_keysvip
· 18時間前
また冷飯を炒めてカモにされている。
原文表示返信0
MidsommarWalletvip
· 18時間前
AIがWeb3を飛ばすのを見るのを楽しみにしています。
原文表示返信0
ConfusedWhalevip
· 18時間前
私は理解できません。何を言っているのかわかりません。
原文表示返信0
いつでもどこでも暗号資産取引
qrCode
スキャンしてGateアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)