🧠Research🔥🔥🔥

DeepSeek-AI、1.6T パラメータの MoE モデル DeepSeek-V4-Pro を公開──100万トークンコンテキストと FP4/FP8 推論に対応

100万トークンコンテキストでの推論効率を DeepSeek-V3.2 比で 73% 削減し、GPQA で 90.1、GSM8K で 92.6 の SOTA 級性能を達成。
リリース: 2026-04-24 · 読了 5

記事の要約

1. 核心(What)

  • DeepSeek-V4-Pro (1.6T パラメータ, 49B アクティブ) と DeepSeek-V4-Flash (284B パラメータ, 13B アクティブ) のプレビュー版を公開
  • 100万トークンコンテキスト長に対応し、DeepSeek-V3.2 と比較して推論 FLOPs を 73% 削減、KV キャッシュを 90% 削減
  • GPQA で 90.1、GSM8K で 92.6、MMLU Pro で 87.5、SWE Bench Pro で 55.4 を達成し、オープンソースモデルとして最高性能を謳う
  • FP4 + FP8 Mixed Precision 推論に対応し、推論コストとメモリ使用量を大幅に削減

2. 影響(Why)

  • 100万トークンコンテキストを実用的なコストで扱えるなら、社内 RAG での全ドキュメント参照設計が現実解となる。
  • オープンソース LLM が SOTA クローズドモデルに迫る性能を示したことで、商用 API への依存度を減らし、VPC 内で完結する RAG の再構築が視野に入る。
  • 開発者への影響: DeepSeek-V4-Pro の 100万トークンコンテキストと FP4/FP8 推論は、長文理解と低コスト推論を両立させたい開発者にとって、既存の LLM からの移行を強く後押しする。
  • 日本への影響: 国内 LLM 開発企業は、DeepSeek-V4-Pro をベースラインとして、ファインチューニングや RAG システムの性能向上を検討すべき。特に 100万トークンコンテキストは、既存の社内文書検索システムを大幅に刷新する可能性を秘める。

3. 根拠・詳細(How)

  • Diamond on Idavidrein/gpqa: スコア 90.1
  • Gsm8k on openai/gsm8k: スコア 92.6
  • Hle on cais/hle: スコア 37.7
  • Mmlu Pro on TIGER-Lab/MMLU-Pro: スコア 87.5
  • SWE Bench Pro on ScaleAI/SWE-bench_Pro: スコア 55.4
  • Swe Bench Resolved on SWE-bench/SWE-bench_Verified: スコア 80.6
  • Terminalbench 2 on harborframework/terminal-bench-2.0: スコア 67.9
  • DeepSeek-V4-Pro 公式ブログ (2026-04-24 公開)