z-lab、Qwen3.6-27B 用投機的デコードモデル DFlash を公開──ブロック拡散で並列ドラフトを実現
軽量なブロック拡散モデルを投機的デコードのドラフトに採用し、Qwen3.6-27B において最大 16 トークンの並列生成と推論高速化を両立した。
リリース: 2026-02-05 · 読了 3 分何が起きた
投機的デコード(Speculative Decoding)の新手法「DFlash」を提案し、そのドラフト用モデルとして Qwen3.6-27B-DFlash を公開した。
ドラフト工程に軽量なブロック拡散モデル(Block Diffusion Model)を導入することで、従来の逐次的なドラフト生成を並列化し推論速度を向上させている。
ターゲットモデルである Qwen/Qwen3.6-27B と組み合わせて使用し、vLLM や SGLang の最新 PR 実装を通じて最大 16 トークンの投機的生成が可能。
モデル構造に interleaved SWA(Sliding Window Attention)などの変更が含まれており、推論エンジン側の対応が進められている。
なぜ重要
投機的デコードのボトルネックだったドラフト生成の遅延を拡散モデルによる並列化で解消しており、27B 級モデルのリアルタイム応答性を一段階引き上げる。
vLLM や SGLang といった主要な推論サーバーでの実装が先行して提供されており、エンジニアが商用環境へ導入する際の技術的ハードルが低い。
👁️ 開発者
vLLM や SGLang を利用して Qwen3.6 をホストしている開発者は、既存の推論ロジックを維持したまま、ドラフトモデルを追加定義するだけでスループットを大幅に改善できる。
🇯🇵 日本
Qwen 系列を日本語タスクのベースに採用している [AI スタートアップ] や [受託開発企業] は、推論コストを抑えつつ、ユーザー体験に直結するレスポンス速度を 1.5 倍以上に高速化する手段を確保した。