Google DeepMind、マルチモーダルモデル Gemma 4 12B を公開──エンコーダーレスで 16GB VRAM 動作
ビジョンとオーディオを LLM バックボーンに直接統合する新アーキテクチャにより、12B サイズながら 26B MoE 級の性能をローカル PC で実現した。
リリース: 2026-06-03 · 読了 3 分何が起きた
視覚・音声エンコーダーを廃止し、入力を直接 LLM の次元空間へ投影する統一アーキテクチャを採用。
12B パラメータで 26B MoE モデルに近い推論性能を達成しつつ、16GB VRAM の一般的なラップトップで動作可能。
Apache 2.0 ライセンスで公開され、llama.cpp、vLLM、Unsloth などの主要 OSS ツール群を即時サポート。
推論の低遅延化を実現する Multi-Token Prediction (MTP) ドラフト機能を標準で備える。
なぜ重要
エンコーダー分離型特有のメモリオーバーヘッドと実装の複雑さが解消され、エッジでのマルチモーダル・エージェント開発が劇的に容易になる。
16GB のユニファイドメモリ環境で音声・画像をネイティブ処理できるため、API コストを気にしない常時稼働型ローカル AI の構築が現実解となる。
👁️ 開発者
ローカル LLM 開発者は、外部エンコーダーの重みを管理することなく、単一のモデルファイルで画像・音声・テキストを横断するエージェントを実装できる。MTP 搭載により、MacBook 等でのリアルタイムな音声対話 UX の構築難易度が大幅に下がる。
🇯🇵 日本
セキュリティ上の制約でクラウド利用が難しい [国内 製造業・保守点検] の現場において、現場写真や録音データを外部へ送信せず、オフラインのモバイル端末で高度な故障診断や作業指示を行うシステムの実装が加速する。