突破はこの2、3年のうちに!
面壁智能の共同創設者である李大海氏は、
新しい世代の人間とコンピュータのインタラクションの方向性がすでに現れ始めていると述べています。
![インタラクションの未来](https://example.com/image.jpg)
この新たな技術の進展により、私たちの生活や仕事の仕方が大きく変わる可能性があります。
今後の展望として、より自然で直感的な操作方法が実現し、AIと人間の協働が一層深まることが期待されています。

robot
概要作成中

人工知能が画面から現実世界へと進出し始める中、人と機械のインタラクションは大きな変革の時を迎えています。

スマートフォン、自動車、そして急速に普及しつつあるロボットやウェアラブルデバイスなど、従来の「質問と回答」に基づくターン制のインタラクションは、応答の遅延、知覚の断片化、コンテキストの中断といった問題点を次第に露呈しています。このようなインタラクション方式の根本的な欠陥は、AIが物理的な世界に進出する上での重要な障壁となりつつあります。

2月2日、面壁智能(Face-to-Wall Intelligence)の共同創業者兼CEOである李大海氏は、『每日経済新聞』の記者を含むメディアのインタビューで、新世代の人間とコンピュータの相互作用の方向性には光明が見えてきたと述べました。しかし、真の飛躍は一朝一夕に実現するものではなく、クラウドと端末側のモデル能力の継続的な向上とともに段階的に進むと指摘しています。この過程で、全モーダル(多感覚)モデルがデジタルインテリジェンスと物理世界をつなぐ「具現化された脳」となり得るかどうかが、業界の最重要課題となっています。

![画像出典:面壁智能]

全モーダルは単なる機能の積み重ねではなく、インタラクションのパラダイムそのものの変化である

AIが物理世界に入り込み、ロボットやウェアラブルデバイスを駆動する際には、従来の人間とコンピュータのインタラクションモデルの欠点が顕在化し始めています。

清華大学計算機科学科の終身教授であり、面壁智能の共同創設者兼最高科学責任者(CSO)である劉知遠氏は、人間にとって「聴く」「話す」「見る」は多チャネルの並行作業であり、人は話しながらも聴き続け、見続けることができ、これらの過程は互いに妨げ合わないと考えています。しかし、人間とコンピュータのインタラクションのレベルでは、これまでの多くのモデルはこの能力を持つのが非常に難しく、「話し始めると視覚や聴覚が遮断される」といった問題が生じてきました。

このインタラクション方式の欠点は、AIの身体知能への深度を制限していると劉氏は指摘します。彼は、擬人化され自然なインタラクション能力こそが、ロボットやスマート端末をより人間らしくするための重要な一歩だと考えています。「(全モーダルモデルは)将来的にロボットやスマート端末が人間のように自然に相互作用できるようになる可能性が高いです。」

この判断に基づけば、身体知能は独立した研究分野ではなく、モデルのインタラクション能力を高めるための応用シナリオの一つです。劉氏は、端末やスマートデバイスのシナリオにおいても、同様の高性能モデルが必要であり、それによってより良いサービスを提供できると強調しています。彼は、能力の面での身体知能の急速な進化は、そう遠くない未来に実現可能だと見積もっています。「あと2、3年も経てば、実現できるのではないかと考えています。」

産業レベルでは、端末側のモデルとAIハードウェアの融合は、現実的かつ複雑な課題となっています。

李大海氏は、大手企業の参入やインテリジェントエージェントのスマートフォンなどへの展開により、新たな人間とコンピュータのインタラクションの形態が見えてきたと述べていますが、これがすぐに転換点を迎えるわけではないとも指摘します。彼は、「この飛躍は一度に完了するものではなく、クラウド側と端末側のモデルの継続的な向上とともに進む」と予測しています。

現在、広く議論されているスマートフォンのシナリオにおいても、技術的な制約は依然として存在します。李氏は、例えば「豆包(Doubao)」スマートフォンの背後にあるモデルは、業界最高クラスの一つだが、複雑な人間のタスクを完遂する能力はまだ理想的なレベルには達していないと述べています。

さらに、李氏は次のように分析します。一方では、純粋なクラウドソリューションはプライバシーの問題を回避しにくい。もう一方では、端末側の計算資源や消費電力の制約により、全モーダル能力のスマートフォンへの実装には時間がかかる。彼は、「モダリティが増えれば増えるほど、資源の消費も増大し、それが端末ごとのリズムの違いを生む」と述べています。

現状のスマートフォンのインタラクションは、主に音声とタッチ操作に依存しており、そのモダリティは限定的です。李氏は、「豆包スマートフォンの核心的な突破点は、インテリジェントエージェントが人間のように操作し、複雑なタスクを代行できることにあります。これは、人間のように出力する問題の解決に相当します」と説明します。次の進化の方向性は、入力方式の革新にあります。

「現在のスマートフォンは、人間の文脈と同期しており、画面上の操作に依存しています。将来的には、スマートフォンが直接現実世界の音や映像を聴き、見られるようになれば、所有者とより良く同期し、文脈を共有できるようになるでしょう」と李氏は述べています。これが、スマートフォンが真のエージェントへと進化するための重要な一歩だと考えています。ただし、その一方で、電力消費やプライバシー保護といった二重の課題に直面し、製品設計にはより高い要求が求められることも指摘しています。

一方、自動車やロボットといったシナリオは、資源条件が比較的余裕があるため、李氏は全モーダルモデルの潜在的な展開先として有望だと見ています。身体知能の分野においては、現状のボトルネックは「存在論」ではなく、「脳」にあると考えています。モデルの能力に革新的な進展があれば、身体知能は「ChatGPTの瞬間」のような飛躍を迎える可能性が高いと述べています。

業界は、モデルの専門的な能力とインタラクション能力の爆発的な進化を間もなく目撃するだろう

この見解のもと、面壁智能は特定の製品やハードウェアの形態に焦点を当てるのではなく、高品質なモデルを継続的に生産できるかどうかに重きを置いています。

AI分野では、「スケーリング法則(Scaling Law)」が長らく絶対的な法則とされてきましたが、その限界や壁にぶつかるかどうかについての議論は絶えません。面壁智能は、別の視点として「デンシング法則(Density Law)」を提唱しています。これは、大規模モデルの有効期限は非常に短く、能力の密度は約100日ごとに倍増するというものです。つまり、重要なのは優れたモデルを一つ作ることではなく、継続的に優秀なモデルを開発し続ける能力だということです。

面壁智能は、自社を「大型モデルのリソグラフィー(露光装置)」と位置付けています。李氏は、「このリソグラフィーは、より高い能力密度を持つ大型モデルを継続的に訓練し続けることを意味します」と説明しています。

劉知遠氏は、密度の法則の論理は半導体チップ産業に似ていると付け加え、「将来的には、大型モデルはますます小型化・高密度化し、コストを抑えつつ、より小さな端末で動作させることが可能になる」と述べています。

李氏は、端末側モデルの商業化もまた、能力の検証とデータのフライホイールの一部であると強調します。単に商業化を進めてモデルを販売し、数十億台のデバイスに展開することは難しいため、より現実的な道はエコシステムや開発者と協力してこのプロセスを推進することだと述べています。

大手企業との競争について、李氏は、スタートアップの機会は大手の参入によって失われたわけではないと考えています。AIは依然として産業レベルのチャンスであり、スタートアップの試練は、広大な市場の中で小さなシェアを獲得するか、あるいは狭い市場でトップを目指すかの選択にかかっていると述べ、「まだ多くの可能性がある」と信じています。

未来の技術動向について、劉知遠氏は二つの主要なテーマを提案しています。一つは、インテリジェンス能力の継続的な向上。もう一つは、インテリジェンスの効率的かつ持続的な活用です。彼は、「今後1〜2年で、モデルの専門的能力の向上と世界とのインタラクション能力の爆発的な進展を、業界は急速に目撃するだろう」と予測しています。「エージェントとしての自律学習能力がより強化されることは、今後1〜2年の非常に重要なトレンドです。自律的に探索し、学び、成長できる能力を持つと、次の突破口は複数のエージェントの協調にほかならない」と述べています。

劉氏は、今後5年から10年の間に、世界は確実に「マルチエージェントの相互接続」「高度な協力」「群知能」の状態に入ると展望しています。

(出典:每日経済新聞)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン