NVIDIA、AR と拡散モデルを統合した Nemotron-Labs Diffusion モデルを公開──推論速度を最大 6.4 倍に高速化
同一モデル内で自己推測(Self-speculation)と逐次生成を切り替え可能にし、精度を維持したまま B200 で 865 tok/s の超高速推論を実現した。
リリース: 2026-05-23 · 読了 4 分NVIDIA が 3B/8B/14B のテキストモデルと 8B の VLM を含む Nemotron-Labs Diffusion ファミリを公開し、商用利用可能なライセンスで提供。
自己推測(Self-speculation)モードにおいて、従来の逐次生成(AR)比で最大 6.4 倍のトークン生成効率(TPF)を達成した。
NVIDIA B200 GPU を使用したベンチマークで、AR ベースラインの約 4 倍となる 865 tokens/s のスループットを記録。
Qwen3 8B との比較において、平均精度で 1.2% の向上を確認しつつ、拡散デコーディングによる並列生成を可能にした。
「逐次生成は遅い」という物理的限界を、外部のドラフトモデルを必要とせずに、同一モデル内の拡散デコーディングで解決できる。
推論コストのボトルネックであるメモリ帯域を、並列生成によって GPU 計算リソースの稼働率向上へ転換し、実運用コストを劇的に下げる選択肢になる。
推論サーバー(SGLang 等)の設定 1 行で AR と高速モードを切り替えられるため、既存の RAG やチャットアプリのバックエンドを書き換えずにレイテンシを約 1/4 に短縮できる。外部モデル管理が不要な「自己完結型」の高速化手法としてデプロイ構成を簡素化する。
[国内 AI 検索・要約 SaaS 業種] のような大量のテキストをリアルタイム生成する事業者は、H100/B200 等のハイエンド GPU 投資に対するトークン排出量を数倍に高め、利益率を直接改善できる。日本語特化モデルの開発チームは、この AR+Diffusion 継続学習レシピをベースラインに置くべきだ。