Google DeepMind、テキスト生成を4倍高速化するモデル「DiffusionGemma」を公開
逐次生成を廃しブロック単位で並列生成する拡散モデルを採用し、ローカルGPU環境での推論ボトルネックを解消した。
リリース: 2026-06-10 · 読了 3 分何が起きた
26BパラメータのMoEモデルで、推論時のアクティブパラメータ数は3.8B。
NVIDIA H100で1,000+ token/s、GeForce RTX 5090で700+ token/sの生成速度を実現。
Apache 2.0ライセンスで公開され、Hugging Faceからモデルウェイトが入手可能。
256トークンを並列生成する設計で、量子化時は18GBのVRAMに収まるフットプリント。
なぜ重要
従来の逐次生成(Autoregressive)モデルが抱えていた「GPU待ち時間」を並列処理で解消し、ローカル環境でのリアルタイムなインライン編集やコード補完を実用レベルへ引き上げる。
推論効率がメモリ帯域ではなく計算性能に依存するため、単一の高性能GPUを所有する開発者にとって、推論コストを抑えつつ爆速なUXを提供できる新たな選択肢となる。
👁️ 開発者
ローカルLLMを組み込む開発者は、従来の逐次型モデルでは困難だった「リアルタイムなコード生成・修正」を、本モデルの双方向アテンション特性を利用して実装し直す必要がある。
🇯🇵 日本
国内のAIエージェント開発を行う中規模SaaSベンダーは、クラウドAPIのレイテンシに依存しない「高速ローカル推論」の基盤として、本モデルをエッジ側の推論エンジンに組み込む検証を開始すべきである。