News Articles Projects About

🧠Research🔥🔥

NVIDIA、Google DeepMind の DiffusionGemma を最適化──並列推論で従来比 4 倍の高速化を実現

逐次生成ではなく 256 トークン単位の並列生成を行う拡散モデルにより、ローカル環境でのエージェント推論のレイテンシを劇的に改善した。

リリース: 2026-06-10 · 読了 3 分

DiffusionGemma NVIDIA LLM Inference LocalAI

NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI (2026-06-10 公開)

記事の要約

1. 核心（What）

DiffusionGemma は Gemma 4 (26B) をベースとし、ステップごとに 3.8B パラメータをアクティブ化する MoE アーキテクチャを採用
1 ステップで最大 256 トークンを並列生成し、従来の自己回帰型モデルと比較して最大 4 倍の推論速度を達成
NVIDIA H100 GPU で 1,000 tokens/sec、DGX Station で最大 2,000 tokens/sec のスループットを実現
Apache 2.0 ライセンスで公開され、Hugging Face Transformers、vLLM、Unsloth で即時利用可能

2. 影響（Why）

LLM の推論が「メモリ帯域依存」から「演算依存」へシフトすることで、GPU の Tensor Core をフル活用した低遅延なエージェント構築が現実解となる。
推論トークンあたりのコストを考慮せず、ローカル環境で 1,000 tokens/sec 超の高速応答を確保できるため、リアルタイム性が求められるエージェントループの実装コストが激減する。
開発者への影響: エージェント開発者は、既存の自己回帰型 LLM を DiffusionGemma に置き換えることで、推論待ち時間をボトルネックとしないリアルタイムなツール実行環境を構築できる。
日本への影響: 国内の受託開発・SaaS 企業は、特にリアルタイムな対話や自動操作を要するエージェント製品において、クラウド API の課金モデルに依存しない高性能なローカル推論基盤の選択肢を確保できる。

3. 根拠・詳細（How）

NVIDIA Accelerates Google DeepMind’s DiffusionGemma for Local AI (2026-06-10 公開)

📘 Docs 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (research)