🧠Research🔥🔥

NVIDIA、マルチモーダルモデル Nemotron 3 Nano Omni を公開──視覚・音声・言語を統合し推論効率を 9 倍向上

30B-A3B の MoE アーキテクチャを採用し、HD 画面のリアルタイム解析や複雑なドキュメント理解を単一モデルで完結させた。

リリース: 2026-04-28 · 読了 3
何が起きた
  • 30B-A3B のハイブリッド Mixture-of-Experts (MoE) アーキテクチャを採用し、視覚・音声・言語のエンコーダーを単一システムに統合。

  • 従来の分離型モデル構成と比較して、同一の対話性を維持しつつ最大 9 倍のスループット向上と推論コストの削減を実現。

  • OSWorld ベンチマークにおいて、1920x1080 の HD 解像度をネイティブ入力として処理し、複雑な GUI 操作の精度が大幅に向上。

  • Hugging Face や NVIDIA NIM を通じてオープンウェイトで公開され、Jetson からクラウドまで一貫したデプロイが可能。

なぜ重要
  • 「画面を見て、音声を聞き、テキストで考える」工程を単一推論で回せるため、コンピュータ操作エージェントのレイテンシが実用圏内に到達した。

  • MoE 構成により 30B パラメータ級の表現力を持ちつつ、エッジデバイスでも動作する軽量さを両立しており、オンプレミス環境での Omni モデル運用が現実解になる。

👁️ 開発者

コンピュータ操作(Computer Use)エージェントを開発するエンジニアは、視覚・音声・言語の各解析モデルを個別に管理する手間を省き、単一の推論パスで完結させることでシステム全体のレイテンシを約 1/9 に短縮できる。

🇯🇵 日本

国内の製造・物流現場(中堅以上の SIer や事業会社を想定)で NVIDIA Jetson などのエッジ AI を活用するチームは、クラウドへのデータ送信を最小化しつつ、現場の映像と音声をリアルタイムに統合処理する自律型エージェントの導入を直ちに検討すべき。