🧠Research🔥🔥

NVIDIA、マルチモーダル推論モデル Nemotron-3 Nano Omni を公開──動画・音声・テキストを 31B MoE で統合理解

動画・音声・画像・テキストの 4 モダリティを 256k トークンの長文脈で処理し、エッジデバイスでの高度な推論や GUI オートメーションを可能にする 31B MoE モデル。

リリース: 2026-04-28 · 読了 3
何が起きた
  • 31B パラメータ (Active 3B) の Mamba2-Transformer Hybrid MoE アーキテクチャを採用

  • 動画 (最大 2 分)、音声 (最大 1 時間)、画像、テキストの 4 入力モダリティに対応

  • 最大 256k トークンのコンテキスト長をサポートし、JSON 出力や Chain-of-Thought 推論が可能

  • vLLM, llama.cpp, TensorRT-LLM などの主要ランタイムに対応し、商用利用も可能

なぜ重要
  • Active 3B という軽量さで動画・音声の統合理解が可能なため、単一の RTX 5090 や Jetson Thor 上で高度なマルチモーダル RAG が完結する。

  • 256k の長文脈と推論機能の組み合わせにより、長時間の会議録音や操作ログからの複雑な GUI 自動化シナリオの生成が 1 モデルで完結する。

👁️ 開発者

マルチモーダル入力を扱う開発者は、動画解析と音声認識を別々のモデルで組む必要がなくなり、vLLM 等の標準スタックで統合的な推論パイプラインを構築できる。

🇯🇵 日本

国内の製造・物流現場で Jetson 等のエッジ AI を運用する事業者は、クラウドにデータを上げずに現場の動画・音声から直接異常検知や作業指示を行うローカル推論基盤として採用を検討すべきである。