Google DeepMind、離散拡散モデル DiffusionGemma 公開──1100 tok/s 超の高速推論を実現
256 トークンのブロック単位で並列デノイジングを行う新手法により、H100 環境で 1,000 トークン/秒を超える圧倒的な生成速度とマルチモーダル入力を両立した。
リリース: 2026-06-10 · 読了 3 分何が起きた
Gemma 4 アーキテクチャをベースにした 26B MoE(有効 4B)の離散拡散テキスト生成モデルを Apache 2.0 ライセンスで公開
256 トークンの「キャンバス」を並列にデノイジングする手法により、H100 (FP8) で 1100 tokens/sec 以上の推論速度を記録
テキストに加え、可変解像度の画像やビデオ入力をサポートし、最大 256K トークンの長文脈に対応する
思考プロセスを出力する「Thinking Mode」や、構造化されたツール利用(Function Calling)をネイティブサポート
なぜ重要
1,000 tok/s 超の速度は、これまで数秒かかっていた長文要約やコード生成を「瞬時」に変え、エージェントの応答待ちという UX の壁を破壊する。
自己回帰型のボトルネックだった逐次計算を拡散モデルで並列化し、MoE で計算資源を節約する構成は、今後の高効率 LLM の新たな標準解になる。
👁️ 開発者
開発者は transformers ライブラリ経由で即座に利用でき、低レイテンシが要求されるリアルタイム・エージェントや、大量の動画解析パイプラインにおいて GPU あたりのスループットを劇的に改善できる。
🇯🇵 日本
日本語を含む 35 以上の言語をサポートしており、国内の AI エージェント開発企業や大量の PDF 資料を扱う DX 推進部門は、商用 API 頼みだった高速推論環境を VPC 内で完結させる選択肢を得る。