Google、次世代モデル Gemma-4-12b-it を公開──12B 級で SOTA の推論性能を Hugging Face で提供
Google の軽量モデル Gemma 第 4 世代が Hugging Face に登場。12B パラメータながら 20B 超のモデルに匹敵する推論性能を、単一のコンシューマー GPU 環境で実現する。
リリース: 2026-06-13 · 読了 2 分何が起きた
Google が Hugging Face Spaces 上で Gemma-4-12b-it のインタラクティブデモを公開。
12B パラメータの Instruction Tuned 版で、公開直後に Hugging Face のトレンド 1 位を獲得。
数学的推論とコード生成において、前世代の Gemma 3 27B モデルを上回るベンチマークスコアを記録。
なぜ重要
12B は 24GB VRAM の GPU 1枚でフルパラメータのファインチューニングが可能な限界線であり、独自ドメイン適応モデルの量産における最適解となる。
推論コストと精度のバランスが改善され、1M トークンあたりのセルフホスト費用を Llama 3.1 8B 級に抑えつつ、より高度なロジックを実装できる。
👁️ 開発者
開発者は量子化による精度劣化を気にせず 12B モデルをローカル実行できるため、複雑なプロンプトエンジニアリングを要するエージェント開発の試行回数を劇的に増やせる。
🇯🇵 日本
国内の [AI 受託開発・SaaS 企業] は、高騰する商用 API からの脱却を狙う際、日本語性能とライセンスの柔軟性が高い本モデルを自社インフラへ統合する動きを強める。