🧠Research🔥🔥

MiniMax、100万トークン対応のマルチモーダルモデル MiniMax-M3 公開──推論効率を最大 15 倍向上

428B パラメータの MoE 構成に独自スパースアテンションを導入し、1M コンテキストの計算コストを従来比 1/20 に削減、エージェント業務の実行速度を劇的に改善した。

リリース: 2026-06-11 · 読了 3
何が起きた
  • 総パラメータ数 428B、活性パラメータ数 23B の MoE アーキテクチャを採用し、100 万トークンの長文脈に対応した。

  • 独自の MiniMax Sparse Attention (MSA) により、1M コンテキスト時のデコード速度を従来比 15 倍、プリフィル速度を 9 倍に高速化した。

  • テキスト、画像、動画を初期段階から混合学習するネイティブマルチモーダル設計により、メディアを跨ぐ深いセマンティック融合を実現した。

  • 複雑な推論・エージェント向けの「Thinking」と、低遅延チャット向けの「Non-thinking」の 2 つの推論モードを搭載している。

なぜ重要
  • 1M トークン級の推論コストが 1/20 にまで低下したことで、動画解析や大規模コードベースを跨ぐ自律型エージェントの運用が、商用 API 依存から OSS ベースの自社インフラへ移行する契機になる。

👁️ 開発者

vLLM や SGLang での推論が公式にサポートされており、開発者は既存の推論スタックを維持したまま、長文脈 MoE モデルをプロダクション環境へ即座にデプロイできる。

🇯🇵 日本

大量の設計図面や動画アーカイブを保有する国内の製造業や放送メディア企業において、機密データを外部 API に送らずに VPC 内で 1M トークン級の RAG を構築する際の有力な選択肢となる。