OpenAI、GPT-5.6シリーズをプレビュー公開──DeepSeekは投機的デコーディングDSparkを導入
OpenAIは推論能力を強化したGPT-5.6を限定公開し、DeepSeekはV4 Proで推論速度を最大85%向上させる新フレームワークを実装した。
リリース: 2026-06-28 · 読了 5 分記事の要約
1. 核心(What)
- OpenAIがGPT-5.6シリーズ(Sol/Terra/Luna)をプレビュー公開。最上位のSolはマルチステップ推論に特化し、TerminalBench 2.1で新記録を達成。
- DeepSeekがHugging FaceでDeepSeek-V4-Pro-DSparkを公開。1.6兆パラメータのMoEモデルに投機的デコーディングを統合。
- GoogleがMetaに対してGeminiのAPI利用制限を実施。計算リソースの逼迫により直接契約顧客と社内ワークロードを優先。
- Mozillaのセキュリティチームが、Claude Code等のAIエージェントを標的としたREADME経由の攻撃経路を報告。
2. 影響(Why)
- 推論コストと性能の再定義: GPT-5.6のTerraモデルがGPT-5.5相当の性能を半額で提供する点は、商用LLMのコスト構造が「推論効率化」へシフトしたことを意味する。プロダクト開発者は、推論コストを前提とした機能設計を再考すべき局面にある。
- 国内SaaSのAPI戦略への示唆: GoogleがMetaへのAPI提供を制限した事実は、クラウドベンダーの計算資源逼迫がフロンティアモデルの供給網を分断するリスクを示唆している。国内の[中堅Vertical SaaS事業者]は、単一のモデルプロバイダーに依存せず、DeepSeek等のOSSモデルをVPC内で運用するリスクヘッジが不可欠となる。
3. 根拠・詳細(How)
- DSparkによる推論高速化: DeepSeek-V4-Pro-DSparkは投機的デコーディングフレームワークにより、従来のMTP-1と比較してユーザーあたりの生成速度を60〜85%向上させた。
- V4アーキテクチャの圧縮技術: Compressed Sparse AttentionとHeavily Compressed Attentionを組み合わせたハイブリッド注意機構を採用。100万トークン処理時、V3.2比で推論FLOPsを27%、KVキャッシュを10%削減した。
4. 展望・課題(Next)
- GPT-5.6の提供拡大: 7月中にCerebrasのインフラ上で最大750トークン/秒の推論性能での提供を予定している。