マルチモーダル LLM「Nemotron 3 Nano Omni」が音声対応とトークン削減で推論効率を大幅改善

30B-A3B バックボーンに独自のトークン削減技術を統合。音声・画像・動画の統合理解と低遅延な推論を実現。(原題: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence)

リリース: 2026-04-27 · 読了 3
何が起きた
  • Nemotron シリーズで初めて音声入力をネイティブにサポートし、テキスト・画像・動画との統合理解が可能になった

  • Nemotron 3 Nano 30B-A3B バックボーンを基盤とし、独自のマルチモーダルトークン削減技術により推論レイテンシを大幅に低減

  • 実世界のドキュメント解析、長尺の音声・動画理解、およびコンピュータ操作エージェントにおいて、前世代の Nemotron Nano V2 VL を上回る精度を達成

  • BF16、FP8、FP4 フォーマットのモデルチェックポイントに加え、学習データの一部とコードベースが公開されている

なぜ重要
  • 低遅延なマルチモーダルエージェントを構築する際、本モデルのトークン削減技術を無視すると、推論コストと応答速度の最適化機会を逃すことになる

  • 音声・視覚・テキストをネイティブに統合したオープンな軽量モデルの登場により、エッジ環境での高度なドキュメント理解や操作自動化のハードルが下がった

👁️ 開発者

低遅延なマルチモーダル推論を求める開発者は、公開された FP8/FP4 チェックポイントを即座に試すべき。特にコンピュータ操作エージェントや長尺動画解析の用途では、既存モデルからのリプレイス候補として最有力となる。

🇯🇵 日本

国内固有の追加文脈は限定的(汎用的に有用)。


著者
NVIDIA · NVIDIA