Xiaomi、ネイティブ・オムニモーダルモデル MiMo-V2.5 を公開──310B パラメータの MoE 構成で 1M トークンに対応
テキスト・画像・動画・音声を統合処理する 310B MoE モデルで、KV キャッシュを 6 倍削減するハイブリッド Attention を採用した。
リリース: 2026-04-27 · 読了 3 分記事の要約
1. 核心(What)
- モデル構成は Sparse MoE、総パラメータ数 310B(アクティブ 15B)
- コンテキスト長は最大 1M トークンをサポート
- KV キャッシュ容量を従来比で約 6 倍削減するハイブリッド Attention アーキテクチャを採用
- 約 48T トークンのデータセットで FP8 混合精度学習を実施
2. 影響(Why)
- KV キャッシュ削減と 1M トークンの長文脈対応が両立されているため、動画解析や複数ドキュメントを跨ぐ RAG パイプラインの実装コストが劇的に下がる。
- SGLang や vLLM との公式統合が提供されており、推論最適化の知見をそのまま本番環境のデプロイに転用できる。
- 開発者への影響: オムニモーダル対応の推論エンジンとして SGLang を利用する場合、--moe-a2a-backend に deepep を指定する等の構成変更が必須となるため、既存の推論パイプラインのベンチマーク再計測が必要になる。
- 日本への影響: 動画解析や音声入力を伴う業務自動化を検討中の国内 Vertical SaaS 事業者は、既存の GPT-4o 等の API 依存から、VPC 内で完結する 310B MoE モデルへの移行を検討するフェーズに入った。
3. 根拠・詳細(How)
- XiaomiMiMo/MiMo-V2.5 Hugging Face リポジトリ (2026-04-27 公開)