DeepSeek、1.6T パラメータの MoE モデル DeepSeek-V4 を発表──100万トークン時の KV キャッシュを 90% 削減

🧠Research🔥🔥🔥

新開発のハイブリッドアテンション CSA/HCA により、1M トークンの超長文脈推論における KV キャッシュ消費を DeepSeek-V3.2 比で 1/10 に圧縮した。

リリース: 2026-04-26 · 読了 4 分

何が起きた

DeepSeek-V4-Pro (1.6T params / 49B active) と Flash (284B params / 13B active) の 2 モデルを公開。
100万トークン推論時の KV キャッシュ消費量を DeepSeek-V3.2 比で 90% 削減し、推論 FLOPs も 73% 削減した。
32兆トークンの高品質データで事前学習し、新オプティマイザ Muon を採用して学習の安定性と収束速度を向上。
圧縮スパースアテンション (CSA) と高圧縮アテンション (HCA) を組み合わせたハイブリッド構成で長文脈の計算効率を最適化した。

なぜ重要

👁️ 開発者

1M トークン級の入力を扱う開発者は、KV キャッシュのメモリ制限を回避するための複雑なチャンク分割や要約処理を廃止し、ドキュメントをそのままコンテキストに流し込む設計へ移行できる。

🇯🇵 日本

国内の製造業や金融業向けに大規模な社内文書検索（RAG）を提供する AI ベンダーは、インフラコストを 1/4 以下に抑えつつ、長大な技術仕様書や契約書をそのまま処理するサービスを構築できる。