NVIDIA、オムニモーダルモデル Nemotron 3 Nano Omni 公開──動画・音声の推論効率を 9 倍に改善
Mamba と MoE を統合した 30B 規模のモデルで、100 ページ超の文書解析や音声・動画の同時理解、GUI 操作エージェントにおいて、既存のオープンモデルを凌駕するスループットを実現した。
リリース: 2026-04-28 · 読了 4 分記事の要約
1. 核心(What)
- Mamba (SSM)、Transformer、MoE (128 エキスパート) を組み合わせた 30B-A3B アーキテクチャを採用し、長文脈処理を効率化。
- 100 ページ以上の複雑なドキュメント解析や、20 分以上の音声、長時間動画のマルチモーダル推論に単一モデルで対応。
- 既存のオープンオムニモデルと比較して、複数文書タスクで 7.4 倍、動画タスクで 9.2 倍のシステムスループットを達成。
- MMlongbench-Doc や OCRBenchV2、VoiceBench などの主要ベンチマークで、オープンウェイトモデルとしてトップクラスの精度を記録。
2. 影響(Why)
- 動画・音声・GUI 操作を統合した軽量モデルにより、エッジデバイスや低コストなオンプレミスサーバーでの高度なエージェント実装が現実解になる。
- Mamba と MoE のハイブリッド構成は、長文脈における計算コスト増大を抑えつつ、マルチモーダルな推論精度を維持する新たな標準を示す。
- 開発者への影響: 開発者は、動画の冗長トークンを削減する EVS 技術により、従来の VLM よりも大幅に低いレイテンシで動画解析機能を実装できる。また、GUI 操作に特化した学習済み重みを利用することで、画面操作自動化エージェントのプロトタイプ構築コストが激減する。
- 日本への影響: [国内 BPO・DX 支援業種] のような大量の紙資料や動画マニュアルを扱う企業は、高価な外部 API に依存せず、セキュアな自社環境で高精度な自動解析パイプラインを構築できる。[国内 家電・ロボティクスメーカー] は、音声と視覚を統合してリアルタイムに応答するエッジ AI 開発のベースラインとして本モデルを活用できる。
3. 根拠・詳細(How)
- System efficiency (Multi-doc): スコア 7.4(baseline 1)
- System efficiency (Video): スコア 9.2(baseline 1)
- Reasoning speedup: スコア 2.9(baseline 1)
- NVIDIA Nemotron 3 Nano Omni 公式ブログ (2026-04-28 公開)