Mistral AI、128B モデル Mistral-Medium-3.5-128B を公開──Llama 3 70B 超えの性能を狙う
Mistral-Large 2 に匹敵する 128B 規模を持ちながら Medium 系統として最適化。H100 1 ノードで高効率に動作する「実用上の最高峰」を目指す設計。
リリース: 2025-03-06 · 読了 3 分記事の要約
1. 核心(What)
- Mistral AI が Hugging Face に Mistral-Medium-3.5-128B をアップロードし、オープンウェイトとして公開。
- パラメータ数は 128B、コンテキストウィンドウは最大 128k トークンに対応。
- モデルアーキテクチャは高密度(Dense)構成を採用しており、MoE(混合専門家)モデルと比較して推論時の挙動が安定している。
2. 影響(Why)
- Llama 3 70B では複雑な指示に従いきれず、405B では GPU 資源が足りない開発者にとって、128B は単一ノードで SOTA 級の推論を回せる最適解となる。
- Mistral-Medium ブランドが 128B までスケールしたことで、商用 API 級の性能をローカル環境や VPC 内で完結させる選択肢がより強固になった。
- 開発者への影響: 128B モデルは FP8 量子化により VRAM 140GB 前後で動作するため、H100 (80GB) 2 枚構成のサーバーで最高精度の推論環境を自前構築する際のデファクトスタンダードになる。
- 日本への影響: 機密情報を外部 API に送信できない国内の [金融・保険業] や [大手製造業] において、Llama 3 70B では不足していた複雑な論理推論を、オンプレミスの GPU サーバー 1 台で完結させる構成が現実解になる。
3. 根拠・詳細(How)
- Reddit r/LocalLLaMA 投稿 (2025-03-06 公開)
- Mistral-Medium-3.5-128B Hugging Face リポジトリ (2025-03-06 公開)