DeepSeek-V4 発表──1Mトークンの長文脈とエージェント特化アーキテクチャで推論コストを大幅削減
推論効率を最適化する圧縮アテンションとエージェント向け学習により、SWE-bench 等のタスクで最先端モデルに匹敵する性能を実現。
リリース: 2026-04-24 · 読了 5 分記事の要約
1. 核心(What)
- DeepSeek-V4-ProはV3.2と比較して、1Mトークン時の推論FLOPsを27%、KVキャッシュメモリ使用量を10%に抑制。
- Compressed Sparse Attention (CSA) と Heavily Compressed Attention (HCA) を層ごとに交互に配置し、KVキャッシュを従来比約2%に圧縮。
- SWE Verifiedベンチマークで80.6%の解決率を達成し、Gemini-3.1-ProやOpus-4.6-Maxと肩を並べる性能を記録。
- エージェント向けにXML形式のツールコールスキーマを採用し、JSONのパースエラーを排除。
2. 影響(Why)
- 長文脈モデルの最大のボトルネックであるKVキャッシュの肥大化と推論コスト増大を、アーキテクチャの工夫で実用レベルまで引き下げた。
- ツール利用時のみ推論履歴を保持する適応的な学習により、マルチターンエージェントの長期的タスク遂行能力を強化した。
- 開発者への影響: 開発者は、1Mトークンという広大なコンテキストを低コストで利用可能になり、複雑なコードベースや長期的なターミナル操作を伴うエージェント開発が加速する。
- 日本への影響: 国内のAIエンジニアや研究者にとって、オープンモデルによる高度なエージェント構築が容易になり、商用モデルに依存しない自律型AIシステムの開発が進む。
3. 根拠・詳細(How)
- SWE Verified: スコア 80.6
- Terminal Bench 2.0: スコア 67.9
- MCPAtlas Public: スコア 73.6
- DeepSeek-V4: a million-token context that agents can actually use