Google、マルチモーダルモデル Gemma 4 12B Unified を公開──エンコーダーレス構成で音声をネイティブ処理
外部エンコーダーを廃し、画像・音声・動画を単一のデコーダーで直接処理することで、12B サイズながら 256K コンテキストと高度な推論(Thinking)を実現した。
リリース: 2026-06-10 · 読了 3 分Gemma 4 12B Unified は、画像パッチや音声波形を線形層経由で直接 LLM の埋め込み空間に投影するエンコーダーレス・アーキテクチャを採用した。
コンテキストウィンドウは最大 256K トークンに対応し、ハイブリッド・アテンション(スライディングウィンドウ+グローバル)によりメモリ効率を最適化している。
推論特化の「Thinking モード」を搭載し、Chain-of-Thought による段階的な思考プロセスをネイティブに実行可能。
Apache 2.0 ライセンスのオープンウェイトとして公開され、日本語を含む 140 以上の言語をサポートする。
音声や画像を外部モデルで特徴抽出せず直接入力できるため、マルチモーダル RAG やリアルタイム音声解析のパイプラインが大幅に簡素化される。
24GB 程度の VRAM を持つコンシューマ GPU 1 枚で、256K トークンの長文脈とマルチモーダル推論を完結できる点が、ローカルエージェント開発において極めて強力な選択肢になる。
エージェント開発者は、音声コマンドから直接ツール実行を行うような低遅延なローカルアプリを、12B モデル 1 つで構築可能になる。マルチモーダルな Fine-tuning を行う際も、単一の Transformer モデルとして学習を回せるため、独自のデータセット適応が容易になる。
国内の製造業やコールセンター等の現場で、機密性の高い音声・画像データをオンプレミスの GPU サーバーで完結して処理するニーズに直結する。国内 AI スタートアップは、高額な商用 API に頼らず、日本語音声認識と高度な推論を組み合わせたバーチャルアシスタントを低コストで量産できる。