Google、Gemma 4 12B Unified を公開──エンコーダー不要で音声・画像を直接処理する 12B モデル
外部エンコーダーを排除し、単独のデコーダーで音声・画像・動画をネイティブ処理。256K の長文脈と推論モードを備え、コンシューマー GPU での高速なマルチモーダル推論を実現した。
リリース: 2026-06-10 · 読了 3 分何が起きた
外部エンコーダーを廃止し、画像パッチや音声波形を直接 LLM の埋め込み空間へ投影する Unified アーキテクチャを採用
12B パラメータで最大 256K トークンのコンテキストウィンドウをサポートし、ハイブリッドアテンションによりメモリ効率を最適化
テキスト、画像、ビデオに加え、音声のネイティブ理解(ASR や翻訳)を単一の Transformer デコーダーで完結
思考ステップを出力する Thinking モードを搭載し、複雑な推論タスクやエージェント動作の精度を向上
なぜ重要
マルチモーダル処理に別個の ViT や音声エンコーダーが不要になるため、デプロイ時の依存関係と VRAM 消費が劇的に削減される
音声と画像を同一のデコーダーで扱うことで、動画内の音声と視覚情報を統合した高度なコンテキスト理解が 12B 規模のローカル環境で可能になる
👁️ 開発者
ローカル LLM を活用する開発者は、モデルサイズを抑えつつ音声・画像解析を統合したエージェントを単一の AutoModelForMultimodalLM で実装できる。特に 24GB VRAM の GPU 1 枚で 256K トークンの長文脈マルチモーダル推論が完結する点は、RAG システムの設計を簡素化する。
🇯🇵 日本
日本語を含む 140 言語に対応しており、国内の製造業やコールセンター向け AI 開発(音声 ASR と画像 OCR の統合など)において、クラウド API に頼らない低遅延なオンプレミス・エッジソリューションの構築が現実的になる。