NVIDIA、世界基盤モデル Cosmos 3 を発表──推論と行動生成を統合し物理世界の予測を実現
視覚推論とマルチモーダル生成を単一の Mixture-of-Transformers で実現し、ロボットの関節角度や軌道データを直接出力可能。
リリース: 2026-06-01 · 読了 3 分何が起きた
NVIDIA Cosmos 3 は、テキスト、画像、動画、環境音、およびロボットの行動(Action)を単一モデルで処理する世界基盤モデルである。
Mixture-of-Transformers(MoT)アーキテクチャを採用し、シーンを解釈する推論ブロックと、物理的に整合した動画や行動データを生成する生成ブロックを統合している。
ロボットの関節角度やグリッパーの位置、軌道ポイントなどの数値を直接出力でき、VANTAGE-Bench や Physics-IQ 等の主要ベンチマークで首位を獲得した。
Linux Foundation の OpenMDW 1.1 ライセンスの下で、モデルの重み、アーキテクチャ、コードが Hugging Face 等で公開されている。
なぜ重要
「見て考える」推論と「動く」ための行動生成が密結合されたことで、従来バラバラだった知覚・計画・制御のパイプラインを 1 つの基盤モデルに集約できる。
物理法則を理解した合成データを生成できるため、実環境では収集困難な衝突やエッジケースの学習データをシミュレーション上で無限に生成可能になる。
👁️ 開発者
ロボット制御エンジニアは、Sim-to-Real(シミュレーションから実機への移行)のギャップを埋めるために、Cosmos 3 を用いた物理的に正確な合成データ生成とファインチューニングを主軸に据えることができる。
🇯🇵 日本
製造業や物流倉庫向けのロボット開発を行う国内メーカーは、高価な実機実験の回数を抑制し、Cosmos 3 によるエッジケースの合成データ生成で開発サイクルを短縮する構成への移行が現実的になる。