🧠Research🔥🔥🔥

Mistral AI、128B モデル Mistral-Medium-3.5-128B を公開──Llama 3 70B 超えの性能を狙う

Mistral-Large 2 に匹敵する 128B 規模を持ちながら Medium 系統として最適化。H100 1 ノードで高効率に動作する「実用上の最高峰」を目指す設計。
リリース: 2025-03-06 · 読了 3

記事の要約

1. 核心(What)

  • Mistral AI が Hugging Face に Mistral-Medium-3.5-128B をアップロードし、オープンウェイトとして公開。
  • パラメータ数は 128B、コンテキストウィンドウは最大 128k トークンに対応。
  • モデルアーキテクチャは高密度(Dense)構成を採用しており、MoE(混合専門家)モデルと比較して推論時の挙動が安定している。

2. 影響(Why)

  • Llama 3 70B では複雑な指示に従いきれず、405B では GPU 資源が足りない開発者にとって、128B は単一ノードで SOTA 級の推論を回せる最適解となる。
  • Mistral-Medium ブランドが 128B までスケールしたことで、商用 API 級の性能をローカル環境や VPC 内で完結させる選択肢がより強固になった。
  • 開発者への影響: 128B モデルは FP8 量子化により VRAM 140GB 前後で動作するため、H100 (80GB) 2 枚構成のサーバーで最高精度の推論環境を自前構築する際のデファクトスタンダードになる。
  • 日本への影響: 機密情報を外部 API に送信できない国内の [金融・保険業] や [大手製造業] において、Llama 3 70B では不足していた複雑な論理推論を、オンプレミスの GPU サーバー 1 台で完結させる構成が現実解になる。

3. 根拠・詳細(How)

  • Reddit r/LocalLLaMA 投稿 (2025-03-06 公開)
  • Mistral-Medium-3.5-128B Hugging Face リポジトリ (2025-03-06 公開)