🧠Research🔥🔥

Xiaomi、ネイティブ・オムニモーダルモデル MiMo-V2.5 を公開──310B パラメータの MoE 構成で 1M トークンに対応

テキスト・画像・動画・音声を統合処理する 310B MoE モデルで、KV キャッシュを 6 倍削減するハイブリッド Attention を採用した。
リリース: 2026-04-27 · 読了 3

記事の要約

1. 核心(What)

  • モデル構成は Sparse MoE、総パラメータ数 310B(アクティブ 15B)
  • コンテキスト長は最大 1M トークンをサポート
  • KV キャッシュ容量を従来比で約 6 倍削減するハイブリッド Attention アーキテクチャを採用
  • 約 48T トークンのデータセットで FP8 混合精度学習を実施

2. 影響(Why)

  • KV キャッシュ削減と 1M トークンの長文脈対応が両立されているため、動画解析や複数ドキュメントを跨ぐ RAG パイプラインの実装コストが劇的に下がる。
  • SGLang や vLLM との公式統合が提供されており、推論最適化の知見をそのまま本番環境のデプロイに転用できる。
  • 開発者への影響: オムニモーダル対応の推論エンジンとして SGLang を利用する場合、--moe-a2a-backend に deepep を指定する等の構成変更が必須となるため、既存の推論パイプラインのベンチマーク再計測が必要になる。
  • 日本への影響: 動画解析や音声入力を伴う業務自動化を検討中の国内 Vertical SaaS 事業者は、既存の GPT-4o 等の API 依存から、VPC 内で完結する 310B MoE モデルへの移行を検討するフェーズに入った。

3. 根拠・詳細(How)

  • XiaomiMiMo/MiMo-V2.5 Hugging Face リポジトリ (2026-04-27 公開)