NVIDIA、マルチモーダル推論モデル Nemotron-3 Nano Omni を公開──動画・音声・テキストを 31B MoE で統合理解
動画・音声・画像・テキストの 4 モダリティを 256k トークンの長文脈で処理し、エッジデバイスでの高度な推論や GUI オートメーションを可能にする 31B MoE モデル。
リリース: 2026-04-28 · 読了 3 分記事の要約
1. 核心(What)
- 31B パラメータ (Active 3B) の Mamba2-Transformer Hybrid MoE アーキテクチャを採用
- 動画 (最大 2 分)、音声 (最大 1 時間)、画像、テキストの 4 入力モダリティに対応
- 最大 256k トークンのコンテキスト長をサポートし、JSON 出力や Chain-of-Thought 推論が可能
- vLLM, llama.cpp, TensorRT-LLM などの主要ランタイムに対応し、商用利用も可能
2. 影響(Why)
- Active 3B という軽量さで動画・音声の統合理解が可能なため、単一の RTX 5090 や Jetson Thor 上で高度なマルチモーダル RAG が完結する。
- 256k の長文脈と推論機能の組み合わせにより、長時間の会議録音や操作ログからの複雑な GUI 自動化シナリオの生成が 1 モデルで完結する。
- 開発者への影響: マルチモーダル入力を扱う開発者は、動画解析と音声認識を別々のモデルで組む必要がなくなり、vLLM 等の標準スタックで統合的な推論パイプラインを構築できる。
- 日本への影響: 国内の製造・物流現場で Jetson 等のエッジ AI を運用する事業者は、クラウドにデータを上げずに現場の動画・音声から直接異常検知や作業指示を行うローカル推論基盤として採用を検討すべきである。
3. 根拠・詳細(How)
- unsloth/NVIDIA-Nemotron-3-Nano-Omni-30B-A3B-Reasoning-GGUF (2026-04-28 公開)