DeepSeek-V3 は MoE と FP8 訓練で学習効率を極限まで追求──H100 換算 2.7M 時間で SOTA 級へ
671B パラメータの MoE 構成とマルチトークン予測を採用。推論コストを抑えつつ GPT-4o 級の性能を実現。(原題: DeepSeek-V3 Technical Report)
リリース: 2024-12-27 · 読了 15 分総パラメータ数 671B、アクティブパラメータ数 37B の Mixture-of-Experts (MoE) アーキテクチャを採用し、推論時の計算負荷を劇的に低減。
FP8 混合精度訓練フレームワークを導入し、H100 GPU 換算で 2.788M 時間という極めて高い学習効率で SOTA 級モデルの構築に成功。
Multi-Token Prediction (MTP) 目的関数を導入。追加の計算コストなしで表現学習を強化し、推論時の投機的デコードを加速させる基盤を構築。
MMLU で 88.5、MATH-500 で 90.2 を記録し、オープンモデルとして GPT-4o や Claude 3.5 Sonnet に匹敵する推論能力を実証。
「巨大モデルの学習には数千億円の投資が必須」という業界の常識を、効率的なアーキテクチャと FP8 活用で打ち破った。この手法を知らずに従来の BF16/Dense 構成で学習を続けると、競合に対して 10 倍近いコストを支払うリスクがある。
DeepSeek-V3 が示した MoE 最適化と通信効率化の知見は、今後の LLM 開発における「標準設計」となる可能性が高く、実装の有無がプロダクトの経済性を左右する。
大規模 LLM の開発・運用に携わるエンジニアは、DeepSeek-V3 が公開した FP8 訓練ライブラリと通信最適化手法を最優先で解析すべき。既存の Llama 3 系アーキテクチャからの移行や、推論コスト削減のための MoE 導入を検討する強力な技術的根拠となる。
国内固有の追加文脈は限定的(汎用的に有用)。