Google、マルチモーダル対応の Gemma 4 モデル群を公開──31B モデルは MoE で高速推論
テキスト・画像・動画・音声に対応し、最大 256K トークンの長文脈処理と高度な推論・コーディング能力を備える。
リリース: 2026-04-02 · 読了 5 分Google DeepMind が Gemma 4 モデル群(E2B, E4B, 26B A4B, 31B)を公開
31B モデルは MoE アーキテクチャを採用し、26B のアクティブパラメータで 4B モデル並みの推論速度を実現
最大 256K トークンのコンテキストウィンドウと、テキスト・画像・動画・音声のマルチモーダル入力をサポート
推論時、画像は可変アスペクト比・解像度に対応し、動画・音声は E2B/E4B モデルでネイティブサポート
ネイティブなシステムプロンプトと関数呼び出し機能により、エージェント開発を強化
256K トークン長文脈とマルチモーダル対応により、複雑なドキュメント分析や動画コンテンツ理解の RAG パイプライン構築が容易になる。
MoE アーキテクチャの 31B モデルは、GPU サーバーリソースが限られる国内スタートアップでも SOTA 級の推論速度と品質を両立できる現実的な選択肢となる。
Gemma 4 は、長文脈処理、マルチモーダル対応、そして MoE による高速推論を兼ね備え、開発者はより高度で効率的な AI アプリケーションを構築可能になる。特に、画像や動画を含む複雑なデータセットを扱う RAG や、エージェント開発において、その能力を発揮する。
国内のマルチモーダル LLM 開発企業は、Gemma 4 の公開により、既存の画像・動画解析ソリューションを大幅に強化できる。特に、26B A4B モデルのような MoE アーキテクチャは、限られた GPU リソースで SOTA 級の性能を求めるスタートアップにとって、コスト効率の良い選択肢となり得る。