🧠Research🔥🔥

NVIDIA、Google DeepMind の DiffusionGemma を最適化──並列推論で従来比 4 倍の高速化を実現

逐次生成ではなく 256 トークン単位の並列生成を行う拡散モデルにより、ローカル環境でのエージェント推論のレイテンシを劇的に改善した。

リリース: 2026-06-10 · 読了 3
何が起きた
  • DiffusionGemma は Gemma 4 (26B) をベースとし、ステップごとに 3.8B パラメータをアクティブ化する MoE アーキテクチャを採用

  • 1 ステップで最大 256 トークンを並列生成し、従来の自己回帰型モデルと比較して最大 4 倍の推論速度を達成

  • NVIDIA H100 GPU で 1,000 tokens/sec、DGX Station で最大 2,000 tokens/sec のスループットを実現

  • Apache 2.0 ライセンスで公開され、Hugging Face Transformers、vLLM、Unsloth で即時利用可能

なぜ重要
  • LLM の推論が「メモリ帯域依存」から「演算依存」へシフトすることで、GPU の Tensor Core をフル活用した低遅延なエージェント構築が現実解となる。

  • 推論トークンあたりのコストを考慮せず、ローカル環境で 1,000 tokens/sec 超の高速応答を確保できるため、リアルタイム性が求められるエージェントループの実装コストが激減する。

👁️ 開発者

エージェント開発者は、既存の自己回帰型 LLM を DiffusionGemma に置き換えることで、推論待ち時間をボトルネックとしないリアルタイムなツール実行環境を構築できる。

🇯🇵 日本

国内の受託開発・SaaS 企業は、特にリアルタイムな対話や自動操作を要するエージェント製品において、クラウド API の課金モデルに依存しない高性能なローカル推論基盤の選択肢を確保できる。