🧠Research🔥🔥

Xiaomi、ネイティブ・オムニモーダルモデル MiMo-V2.5 を公開──310B パラメータの MoE 構成で 1M トークンに対応

リリース: 2026-04-27 · 読了 3 分

記事の要約

1. 核心（What）

KV キャッシュ削減と 1M トークンの長文脈対応が両立されているため、動画解析や複数ドキュメントを跨ぐ RAG パイプラインの実装コストが劇的に下がる。
SGLang や vLLM との公式統合が提供されており、推論最適化の知見をそのまま本番環境のデプロイに転用できる。
開発者への影響: オムニモーダル対応の推論エンジンとして SGLang を利用する場合、--moe-a2a-backend に deepep を指定する等の構成変更が必須となるため、既存の推論パイプラインのベンチマーク再計測が必要になる。
日本への影響: 動画解析や音声入力を伴う業務自動化を検討中の国内 Vertical SaaS 事業者は、既存の GPT-4o 等の API 依存から、VPC 内で完結する 310B MoE モデルへの移行を検討するフェーズに入った。