DeepSeek、284B パラメータの MoE モデル DeepSeek-V4-Flash を公開──1M トークン対応で KV キャッシュを 90% 削減
Hybrid Attention 採用により、1M トークン処理時の KV キャッシュ消費量を DeepSeek-V3.2 比で 10% に抑えつつ、推論コストを大幅に最適化した。
リリース: 2026-04-24 · 読了 3 分何が起きた
DeepSeek-V4-Flash は 284B パラメータ(アクティブ 13B)の MoE モデルで 1M トークンのコンテキスト長に対応
Compressed Sparse Attention と Heavily Compressed Attention を組み合わせた Hybrid Attention 構造を採用
DeepSeek-V3.2 と比較して 1M トークン処理時の KV キャッシュを 90% 削減し、推論 FLOPs を 27% に抑制
SWE-bench Verified で 79% の解決率を達成し、MIT ライセンスで公開
なぜ重要
1M トークン環境での KV キャッシュ削減は、これまでメモリ制約で諦めていた「大規模ドキュメントの全量 RAG」を単一 GPU ノードで実現する現実解になる。
推論コストの劇的な低下により、推論特化型モデルをエージェントの推論エンジンとして常時稼働させる構成がコスト効率の面で正当化できる。
👁️ 開発者
LLM アプリ開発者は、長文脈処理における推論レイテンシとメモリ消費のトレードオフを再評価し、既存の vLLM ベースの推論パイプラインを DeepSeek-V4 向けに最適化する準備が必要になる。
🇯🇵 日本
国内の Vertical SaaS 事業者や社内文書検索システムを構築するエンジニアは、商用 API に依存していた長文脈 RAG を、オンプレミスまたは VPC 内の自前ホスティングへ移行するロードマップを検討すべきである。