DeepSeek、1.6T パラメータの MoE モデル DeepSeek-V4 を発表──100万トークン時の KV キャッシュを 90% 削減
新開発のハイブリッドアテンション CSA/HCA により、1M トークンの超長文脈推論における KV キャッシュ消費を DeepSeek-V3.2 比で 1/10 に圧縮した。
リリース: 2026-04-26 · 読了 4 分何が起きた
DeepSeek-V4-Pro (1.6T params / 49B active) と Flash (284B params / 13B active) の 2 モデルを公開。
100万トークン推論時の KV キャッシュ消費量を DeepSeek-V3.2 比で 90% 削減し、推論 FLOPs も 73% 削減した。
32兆トークンの高品質データで事前学習し、新オプティマイザ Muon を採用して学習の安定性と収束速度を向上。
圧縮スパースアテンション (CSA) と高圧縮アテンション (HCA) を組み合わせたハイブリッド構成で長文脈の計算効率を最適化した。
なぜ重要
1M トークンの RAG や長文解析において、これまでボトルネックだった H100 等の GPU メモリ(KV キャッシュ)制約が劇的に緩和される。
推論効率の向上により、長文脈を前提としたエージェントの思考プロセス(Test-time Scaling)を商用レベルのコストで運用可能にする。
👁️ 開発者
1M トークン級の入力を扱う開発者は、KV キャッシュのメモリ制限を回避するための複雑なチャンク分割や要約処理を廃止し、ドキュメントをそのままコンテキストに流し込む設計へ移行できる。
🇯🇵 日本
国内の製造業や金融業向けに大規模な社内文書検索(RAG)を提供する AI ベンダーは、インフラコストを 1/4 以下に抑えつつ、長大な技術仕様書や契約書をそのまま処理するサービスを構築できる。