News Articles Projects About

🧠Research🔥🔥

NVIDIA、AR と拡散モデルを統合した Nemotron-Labs Diffusion モデルを公開──推論速度を最大 6.4 倍に高速化

同一モデル内で自己推測（Self-speculation）と逐次生成を切り替え可能にし、精度を維持したまま B200 で 865 tok/s の超高速推論を実現した。

リリース: 2026-05-23 · 読了 4 分

LLM Diffusion NVIDIA Inference Optimization Open Weights

Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models (2026-05-23 公開)

記事の要約

1. 核心（What）

NVIDIA が 3B/8B/14B のテキストモデルと 8B の VLM を含む Nemotron-Labs Diffusion ファミリを公開し、商用利用可能なライセンスで提供。
自己推測（Self-speculation）モードにおいて、従来の逐次生成（AR）比で最大 6.4 倍のトークン生成効率（TPF）を達成した。
NVIDIA B200 GPU を使用したベンチマークで、AR ベースラインの約 4 倍となる 865 tokens/s のスループットを記録。
Qwen3 8B との比較において、平均精度で 1.2% の向上を確認しつつ、拡散デコーディングによる並列生成を可能にした。

2. 影響（Why）

「逐次生成は遅い」という物理的限界を、外部のドラフトモデルを必要とせずに、同一モデル内の拡散デコーディングで解決できる。
推論コストのボトルネックであるメモリ帯域を、並列生成によって GPU 計算リソースの稼働率向上へ転換し、実運用コストを劇的に下げる選択肢になる。
開発者への影響: 推論サーバー（SGLang 等）の設定 1 行で AR と高速モードを切り替えられるため、既存の RAG やチャットアプリのバックエンドを書き換えずにレイテンシを約 1/4 に短縮できる。外部モデル管理が不要な「自己完結型」の高速化手法としてデプロイ構成を簡素化する。
日本への影響: [国内 AI 検索・要約 SaaS 業種] のような大量のテキストをリアルタイム生成する事業者は、H100/B200 等のハイエンド GPU 投資に対するトークン排出量を数倍に高め、利益率を直接改善できる。日本語特化モデルの開発チームは、この AR+Diffusion 継続学習レシピをベースラインに置くべきだ。

3. 根拠・詳細（How）

Tokens Per Forward pass (Self-speculation): スコア 6.4（baseline 1）
Throughput on B200 (tok/s): スコア 865（baseline 216）
Towards Speed-of-Light Text Generation with Nemotron-Labs Diffusion Language Models (2026-05-23 公開)

← 日別ページに戻るカテゴリ一覧 (research)