DeepSeek、V4 シリーズを公開──1.6T のオープンウェイト最大級モデルと圧倒的な低価格推論を実現
GPT-5.4 級に肉薄する性能を維持しつつ、KV キャッシュを前世代比最大 93% 削減。1M トークンの長文脈推論を既存フロンティアモデルの数分の一のコストで提供する。
リリース: 2026-04-24 · 読了 3 分記事の要約
1. 核心(What)
- DeepSeek-V4-Pro は総パラメータ数 1.6T(活性 49B)、Flash は 284B(活性 13B)の MoE アーキテクチャを採用した最新モデル。
- 1M トークンの長文脈において、V4-Pro は前世代 V3.2 比で KV キャッシュサイズを 10% に、FLOPs を 27% にまで削減し効率を極限まで高めた。
- API 価格は V4-Pro が $1.74/1M input、V4-Flash が $0.14/1M input と、GPT-5.4 Nano 等の競合を大幅に下回る設定。
- MIT ライセンスでオープンウェイトとして公開され、Hugging Face 上で Pro(865GB)および Flash(160GB)の重みが利用可能。
2. 影響(Why)
- 1M トークンの長文脈推論が「富豪的」な投資なしに実用化できる。KV キャッシュの劇的削減により、同時リクエスト数やレイテンシの制約が大幅に緩和された。
- オープンウェイトで 1.6T 規模のモデルが提供されたことで、特定ドメイン向けのフルファインチューニングや、VPC 内での高精度なプライベート LLM 構築の現実味が一段と増した。
- 開発者への影響: LLM アプリ開発者は、長文脈 RAG のコストを従来の 1/5 以下に抑えられる。特に 1M トークン級のバッチ処理やドキュメント解析において、商用 API から DeepSeek V4 Flash への移行が有力なコスト削減策となる。
- 日本への影響: 国内の AI SaaS ベンダーやエンタープライズの DX 推進部門は、高額な商用 API 利用料を理由に断念していた「全社文書の常時参照」などの機能を、自社インフラ上で低コストに内製化できる。
3. 根拠・詳細(How)
- DeepSeek V4—almost on the frontier, a fraction of the price (2026-04-24 公開)