NVIDIA、マルチモーダルモデル Nemotron-3-Nano-Omni-30B を公開──動画・音声・GUI を統合処理

🧠Research🔥🔥

31B パラメータの Mamba2-Transformer ハイブリッド MoE 構成を採用し、256k トークンの長文脈と推論能力をエッジ環境で実現した。

リリース: 2026-04-27 · 読了 3 分

何が起きた

31B パラメータ（アクティブパラメータ約 3B）の Mamba2-Transformer ハイブリッド MoE アーキテクチャを採用
動画、音声、画像、テキストのマルチモーダル入力に対応し、最大 256k トークンのコンテキスト長をサポート
NVIDIA Blackwell や Hopper、Jetson Thor などの GPU 環境で動作し、vLLM や TensorRT-LLM によるデプロイが可能
Qwen3-VL-30B-A3B-Instruct 等のモデルをベースに学習され、商用利用可能な NVIDIA Open Model Agreement を適用

なぜ重要

👁️ 開発者

vLLM v0.20.0 以降で動作するため、既存の推論サーバーを更新するだけで動画解析パイプラインを統合可能。特に動画の冗長トークンを 50% 削減する pruning 設定により、TTFT（最初のトークン生成時間）を大幅に短縮できる。

🇯🇵 日本

国内の動画解析 SaaS やコールセンター向け音声分析ツールを開発する中規模事業者は、高コストなクラウド API から自社 GPU 環境へ移行することで、推論単価の最適化とデータプライバシーの強化を同時に達成できる。