🧠Research🔥🔥

MiniMax、100万トークン対応のマルチモーダルモデル MiniMax-M3 公開──推論効率を最大 15 倍向上

リリース: 2026-06-11 · 読了 3 分

記事の要約

1. 核心（What）

総パラメータ数 428B、活性パラメータ数 23B の MoE アーキテクチャを採用し、100 万トークンの長文脈に対応した。
独自の MiniMax Sparse Attention (MSA) により、1M コンテキスト時のデコード速度を従来比 15 倍、プリフィル速度を 9 倍に高速化した。
テキスト、画像、動画を初期段階から混合学習するネイティブマルチモーダル設計により、メディアを跨ぐ深いセマンティック融合を実現した。
複雑な推論・エージェント向けの「Thinking」と、低遅延チャット向けの「Non-thinking」の 2 つの推論モードを搭載している。

1M トークン級の推論コストが 1/20 にまで低下したことで、動画解析や大規模コードベースを跨ぐ自律型エージェントの運用が、商用 API 依存から OSS ベースの自社インフラへ移行する契機になる。
開発者への影響: vLLM や SGLang での推論が公式にサポートされており、開発者は既存の推論スタックを維持したまま、長文脈 MoE モデルをプロダクション環境へ即座にデプロイできる。
日本への影響: 大量の設計図面や動画アーカイブを保有する国内の製造業や放送メディア企業において、機密データを外部 API に送らずに VPC 内で 1M トークン級の RAG を構築する際の有力な選択肢となる。