ME News ニュース、4月3日(UTC+8)、Google DeepMindは最近、Gemma 4多模態モデルファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像入力をサポートし(小型モデルは音声もサポート)、テキスト出力を生成します。事前学習と指令調整のバリアントを含み、コンテキストウィンドウは最大256Kトークンに達し、140以上の言語をサポートします。モデルは密集(Dense)と混合専門家(MoE)の2つのアーキテクチャを採用し、E2B、E4B、26B A4B、31Bの4つのサイズがあります。主な能力には高性能推論、マルチモーダル処理の拡張、デバイス側最適化、コンテキストウィンドウの拡大、エンコーディングとエージェント能力の強化、ネイティブシステムプロンプトのサポートが含まれます。技術的な詳細では、モデルは混合アテンション機構を採用し、グローバル層では統一されたキーとバリューのペアおよび比率RoPE(p-RoPE)を使用しています。その中で、E2BとE4Bモデルは逐層埋め込み(PLE)技術を採用し、有効なパラメータは総パラメータより少なくなっています。一方、26B A4B MoEモデルは推論時に3.8Bのパラメータのみを活性化し、動作速度は4Bパラメータモデルに近いです。(出典:InFoQ)
Google DeepMind オープンソースの Gemma 4 多モーダルモデルファミリー
ME News ニュース、4月3日(UTC+8)、Google DeepMindは最近、Gemma 4多模態モデルファミリーをオープンソース化しました。このシリーズのモデルはテキストと画像入力をサポートし(小型モデルは音声もサポート)、テキスト出力を生成します。事前学習と指令調整のバリアントを含み、コンテキストウィンドウは最大256Kトークンに達し、140以上の言語をサポートします。モデルは密集(Dense)と混合専門家(MoE)の2つのアーキテクチャを採用し、E2B、E4B、26B A4B、31Bの4つのサイズがあります。主な能力には高性能推論、マルチモーダル処理の拡張、デバイス側最適化、コンテキストウィンドウの拡大、エンコーディングとエージェント能力の強化、ネイティブシステムプロンプトのサポートが含まれます。技術的な詳細では、モデルは混合アテンション機構を採用し、グローバル層では統一されたキーとバリューのペアおよび比率RoPE(p-RoPE)を使用しています。その中で、E2BとE4Bモデルは逐層埋め込み(PLE)技術を採用し、有効なパラメータは総パラメータより少なくなっています。一方、26B A4B MoEモデルは推論時に3.8Bのパラメータのみを活性化し、動作速度は4Bパラメータモデルに近いです。(出典:InFoQ)