カリフォルニア大学バークレー校の研究チームが新しいAIトレーニング手法GEPAを提案し、ICLR 2026にOral論文として受理された。GEPAはモデルの重みを更新せず、GPUによる訓練も不要で、「学習ログを読み取る」LLMを使ってAIシステムのプロンプトを反復的に書き換えるだけで、6つのタスクにおいて平均的に主流の強化学習手法GRPOに対して6%上回り、最高で20%勝ち、必要な訓練試行回数(rollouts)も35倍少ない。研究がAIエンジニアリングコミュニティで拡散され、Xプラットフォーム上で議論を呼んだのち、現在はDSPyに統合されて一次最適化器(一等優化器)になっている。
GEPAは何をするのか:学習ログを教材として扱い、スコアだけを見ない
従来の強化学習手法(例:GRPO)のワークフローは次のとおりだ。AIに一度タスクを実行させ、その結果に基づいて「+1か-1」のスコアを与え、そのスコアを用いてモデルの重みを反復調整する。問題は、AIがこの一度のタスクを実行する過程には通常、数千tokenに及ぶ推論ステップ、ツール呼び出し、エラー情報が含まれていることだ。こうした豊富な詳細はすべて1つのスコアに圧縮され、過程の情報が捨てられる。だからこそ、RLは収束するまでに何万回もの試行が必要になる。
GEPAは逆だ。毎回AIがタスクを走り終えたら、その一連の過程(reasoning、ツール呼び出し、エラー記録)をそのまま別の「反省LLM」に読み込ませる。反省LLMは、熟練したエンジニアがプログラムのログを読むのと同じように、どのステップで失敗したのか、なぜ失敗したのか、そしてプロンプトをどう修正すべきかを見つけ、その後に該当モジュールのプロンプトを直接書き換える。同様に一度だけタスクを実行するが、GEPAがそこから抽出する信号量は、RLの単一スコアよりはるかに多い。
なぜ勝てるのか:「採点」を「一連の過程の読み取り」に変えるから
GEPAは6つのタスクで平均してGRPOに対し6%上回り、最高で20%勝つ。別の主流なプロンプト最適化器MIPROv2とも比較すると、10%以上上回っている(AIME-2025の数学問題ベンチマークで12%向上)。最も重要なのは訓練コストだ。GEPAは同等の性能に到達するために必要なrollouts(1回のタスク完全実行)が、35倍少ない。
もう一つのデータとして、GEPAがDSPyと統合された後の「Full Program Adapter」は、signature、モジュール、制御フローを含むDSPy全体のプログラムを最適化でき、MATHの数学ベンチマークで93%の精度を達成し、DSPy本来のChainOfThoughtの書き方の67%を大きく上回る。GEPAはmulti-moduleワークフロー(複数モジュールを直列に接続するAIエージェント)でも特に優れており、システム全体を調整するのではなく、特定の失敗しているモジュールをピンポイントで特定して、そのプロンプトを書き換えられる。
誰が最初に使うのか:DSPyの一等市民、GitHubでオープンソース
GEPAのコードはGitHubで公開されており、dspy.GEPAの形でDSPyフレームワークに統合されると同時に、Pythonライブラリとして独立して公開されている。研究チームはUC Berkeley、Stanford、Notre Dame、Anthropicなどの機関にまたがり、論文の著者にはMatei Zaharia(Databricks共同創業者、DSPyの主要著者)とOmar Khattab(DSPyの主要著者)が含まれる。
開発者コミュニティにとってGEPAは、「大量のrolloutはあるが、どう活用すればいいか分からない」という新しい解決策を提供する。多くのチームはすでに、エージェントがタスクを実行した記録を数千件〜数万件単位で蓄積しているが、失敗したときに数件をめくってバグを探す以外に、それらの記録をモデル改善に体系的に変換する方法がない。次の注目点は、GEPAが企業のエージェント型ワークフロー(例:カスタマーサポート自動化、プログラム自動修復)で実際に導入されるケースと、DSPy以外のフレームワークでのGEPAに対応する実装が現れるかどうかだ。
この記事「Berkeley GEPA解説:重みを更新しないのにAIが新しいタスクを学べ、35倍少ない訓練コストでRLに勝つ」が最初に現れたのは、鎖新聞のABMedia。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
AequiSolvaは4月30日に、機関投資家向け資産検証のためのSentinelスタックAIアーキテクチャをローンチしました
AequiSolvaによると、同社は2026年4月30日に、Sentinel Stack™をAI統合型の取引所アーキテクチャとして立ち上げました。そこでは決定論的実行、AIによる市場監視、そして継続的な暗号学的準備金の証明のためのOmni-Attest Engine™が特徴として挙げられています。このプラットフォームは3つの中核を組み合わせています
GateNews2時間前
カーパシー親揭:LLMで個人のナレッジベースを作るための完全な方法
OpenAI の共同創業チームメンバーであり、Tesla の元 AI 最高監督官(チーフ AI ディレクター)である Andrej Karpathy が X で「LLM Knowledge Bases(LLM ナレッジベース)」のワークフローを公開し、彼が最近、大量のトークン使用量を「コードの操作」から「知識の操作」へと切り替えた理由を説明した。LLM を使って、散らばった論文、記事、フォルダ、画像を、自己メンテナンス型の個人 wiki にまとめていくというものだ。こうした一連のプロセスは、彼自身の研究プロジェクトで約 100 本の記事、約 40 万字を積み上げており、全工程が LLM によって書き込みと更新が行われている。この記事では、Karpathy の完全なセットアップを整理し、自分でも複製したい開発者向けに実装可能なチェックリストを提示する。
中核となる理念:生データ → LLM によるコンパイル → wiki → Q&A
Karpathy の設計思想は一文に要約できる。
ChainNewsAbmedia8時間前
ビットコイン・トレジャリーのKウェーブ・メディアが、AIインフラ構築のために最大$485M を確保
ChainCatcherによると、NASDAQ上場のビットコイン・トレジャリー企業K Wave Mediaは5月4日、AIインフラへの戦略転換を発表し、データセンター投資、GPUレンタルサービス、AIインフラの買収および提携に向けて最大4億8,500万ドル($485 million)の資本支援を確保した。
その会社
GateNews9時間前
反物質(Antimatter)は、€300Mの資金調達でAIデータセンター計画を発表
反物質(Antimatter)は、AIワークロード向けのクラウド基盤を提供するフランス拠点の企業で、既存3社であるDatafactory、Policloud、Hivenetを統合して5月4日に立ち上げました。同社は、AI推論のために2026年に100のマイクロデータセンター・ユニットを展開する資金として3億ユーロ(351百万USドル)を調達しています。
CryptoFrontier11時間前
教育省「館館有AI」図書館が無料でChatGPT、Claudeを利用できます!利用時間と場所を一度に確認
教育省は「館館有AI」を推進しており、今年の第4四半期から国家図書館などの国立図書館に各館5台のAIコンピューターを設置する。市民は貸出用の身分証だけでChatGPT、Claude、Geminiなどのツールを無料で利用でき、課金型AIの格差を縮小するとともに、47の国立大学図書館へも拡大する。資金は学校側が自己調達するか、補助金を申請して賄う。あわせて、利用時間、アカウント管理、プライバシー、ライセンスといった課題を克服する必要がある。
ChainNewsAbmedia12時間前
AI バーチャルモデルの経済学:Aitana、Emily と4つのMarkdownシステム解析
AI仮想モデルは、話題実験から月に数万ドルを稼ぐ商業実体へと進み、技術スタック全体が18か月で急速に成熟しました。この記事では3つの典型的なケースを整理します:The Clueless傘下のAitana López(バルセロナ、月収€10,000)、匿名のクリエイターが作ったEmily Pellegrini(週収は約1万ドル)、そして最近X(旧Twitter)上で拡散している「Maya」事例——テキサス州の学生が、4つのmarkdownファイルで構築したとされるAI仮想人格で、初月にOnlyFansのアカウント上で4.3万ドルの収益を上げたケースです。
Aitana López:The Clueless自社の仮想モデル、月収最高€10,000
Aitana López は西
ChainNewsAbmedia15時間前