マルチモーダル LLM「Nemotron 3 Nano Omni」が音声対応とトークン削減で推論効率を大幅改善
30B-A3B バックボーンに独自のトークン削減技術を統合。音声・画像・動画の統合理解と低遅延な推論を実現。(原題: Nemotron 3 Nano Omni: Efficient and Open Multimodal Intelligence)
リリース: 2026-04-27 · 読了 3 分何が起きた
Nemotron シリーズで初めて音声入力をネイティブにサポートし、テキスト・画像・動画との統合理解が可能になった
Nemotron 3 Nano 30B-A3B バックボーンを基盤とし、独自のマルチモーダルトークン削減技術により推論レイテンシを大幅に低減
実世界のドキュメント解析、長尺の音声・動画理解、およびコンピュータ操作エージェントにおいて、前世代の Nemotron Nano V2 VL を上回る精度を達成
BF16、FP8、FP4 フォーマットのモデルチェックポイントに加え、学習データの一部とコードベースが公開されている
なぜ重要
低遅延なマルチモーダルエージェントを構築する際、本モデルのトークン削減技術を無視すると、推論コストと応答速度の最適化機会を逃すことになる
音声・視覚・テキストをネイティブに統合したオープンな軽量モデルの登場により、エッジ環境での高度なドキュメント理解や操作自動化のハードルが下がった
👁️ 開発者
低遅延なマルチモーダル推論を求める開発者は、公開された FP8/FP4 チェックポイントを即座に試すべき。特にコンピュータ操作エージェントや長尺動画解析の用途では、既存モデルからのリプレイス候補として最有力となる。
🇯🇵 日本
国内固有の追加文脈は限定的(汎用的に有用)。
著者
NVIDIA · NVIDIA