🧠Research🔥🔥

NVIDIA、マルチモーダルモデル Nemotron-3-Nano-Omni-30B を公開──動画・音声・GUI を統合処理

31B パラメータの Mamba2-Transformer ハイブリッド MoE 構成を採用し、256k トークンの長文脈と推論能力をエッジ環境で実現した。

リリース: 2026-04-27 · 読了 3
何が起きた
  • 31B パラメータ(アクティブパラメータ約 3B)の Mamba2-Transformer ハイブリッド MoE アーキテクチャを採用

  • 動画、音声、画像、テキストのマルチモーダル入力に対応し、最大 256k トークンのコンテキスト長をサポート

  • NVIDIA Blackwell や Hopper、Jetson Thor などの GPU 環境で動作し、vLLM や TensorRT-LLM によるデプロイが可能

  • Qwen3-VL-30B-A3B-Instruct 等のモデルをベースに学習され、商用利用可能な NVIDIA Open Model Agreement を適用

なぜ重要
  • 動画・音声のリアルタイム解析を 30B 級の軽量モデルで完結できるため、クラウド API 経由の動画処理コストを劇的に削減できる。

  • 推論特化の Chain-of-Thought 出力と GUI 操作能力により、ブラウザ自動化やエージェント開発における実装の標準基盤となる。

👁️ 開発者

vLLM v0.20.0 以降で動作するため、既存の推論サーバーを更新するだけで動画解析パイプラインを統合可能。特に動画の冗長トークンを 50% 削減する pruning 設定により、TTFT(最初のトークン生成時間)を大幅に短縮できる。

🇯🇵 日本

国内の動画解析 SaaS やコールセンター向け音声分析ツールを開発する中規模事業者は、高コストなクラウド API から自社 GPU 環境へ移行することで、推論単価の最適化とデータプライバシーの強化を同時に達成できる。