NVIDIA、マルチモーダルモデル Nemotron 3 Nano Omni を公開──視覚・音声・言語を統合し推論効率を 9 倍向上

🧠Research🔥🔥

30B-A3B の MoE アーキテクチャを採用し、HD 画面のリアルタイム解析や複雑なドキュメント理解を単一モデルで完結させた。

リリース: 2026-04-28 · 読了 3 分

何が起きた

なぜ重要

「画面を見て、音声を聞き、テキストで考える」工程を単一推論で回せるため、コンピュータ操作エージェントのレイテンシが実用圏内に到達した。
MoE 構成により 30B パラメータ級の表現力を持ちつつ、エッジデバイスでも動作する軽量さを両立しており、オンプレミス環境での Omni モデル運用が現実解になる。

👁️ 開発者

コンピュータ操作（Computer Use）エージェントを開発するエンジニアは、視覚・音声・言語の各解析モデルを個別に管理する手間を省き、単一の推論パスで完結させることでシステム全体のレイテンシを約 1/9 に短縮できる。

🇯🇵 日本

国内の製造・物流現場（中堅以上の SIer や事業会社を想定）で NVIDIA Jetson などのエッジ AI を活用するチームは、クラウドへのデータ送信を最小化しつつ、現場の映像と音声をリアルタイムに統合処理する自律型エージェントの導入を直ちに検討すべき。