DeepSeek-AI、1.6T パラメータの MoE モデル DeepSeek-V4-Pro を公開──100万トークンコンテキストと FP4/FP8 推論に対応
100万トークンコンテキストでの推論効率を DeepSeek-V3.2 比で 73% 削減し、GPQA で 90.1、GSM8K で 92.6 の SOTA 級性能を達成。
リリース: 2026-04-24 · 読了 5 分記事の要約
1. 核心(What)
- DeepSeek-V4-Pro (1.6T パラメータ, 49B アクティブ) と DeepSeek-V4-Flash (284B パラメータ, 13B アクティブ) のプレビュー版を公開
- 100万トークンコンテキスト長に対応し、DeepSeek-V3.2 と比較して推論 FLOPs を 73% 削減、KV キャッシュを 90% 削減
- GPQA で 90.1、GSM8K で 92.6、MMLU Pro で 87.5、SWE Bench Pro で 55.4 を達成し、オープンソースモデルとして最高性能を謳う
- FP4 + FP8 Mixed Precision 推論に対応し、推論コストとメモリ使用量を大幅に削減
2. 影響(Why)
- 100万トークンコンテキストを実用的なコストで扱えるなら、社内 RAG での全ドキュメント参照設計が現実解となる。
- オープンソース LLM が SOTA クローズドモデルに迫る性能を示したことで、商用 API への依存度を減らし、VPC 内で完結する RAG の再構築が視野に入る。
- 開発者への影響: DeepSeek-V4-Pro の 100万トークンコンテキストと FP4/FP8 推論は、長文理解と低コスト推論を両立させたい開発者にとって、既存の LLM からの移行を強く後押しする。
- 日本への影響: 国内 LLM 開発企業は、DeepSeek-V4-Pro をベースラインとして、ファインチューニングや RAG システムの性能向上を検討すべき。特に 100万トークンコンテキストは、既存の社内文書検索システムを大幅に刷新する可能性を秘める。
3. 根拠・詳細(How)
- Diamond on Idavidrein/gpqa: スコア 90.1
- Gsm8k on openai/gsm8k: スコア 92.6
- Hle on cais/hle: スコア 37.7
- Mmlu Pro on TIGER-Lab/MMLU-Pro: スコア 87.5
- SWE Bench Pro on ScaleAI/SWE-bench_Pro: スコア 55.4
- Swe Bench Resolved on SWE-bench/SWE-bench_Verified: スコア 80.6
- Terminalbench 2 on harborframework/terminal-bench-2.0: スコア 67.9
- DeepSeek-V4-Pro 公式ブログ (2026-04-24 公開)