News Articles Projects About

🧠Research🔥🔥

NVIDIA、世界基盤モデル Cosmos 3 を発表──推論と行動生成を統合し物理世界の予測を実現

視覚推論とマルチモーダル生成を単一の Mixture-of-Transformers で実現し、ロボットの関節角度や軌道データを直接出力可能。

リリース: 2026-06-01 · 読了 3 分

NVIDIA World Model Robotics Physical AI MoT

How Cosmos 3 Helps Physical AI Think Before It Acts (2026-06-01 公開)

記事の要約

1. 核心（What）

NVIDIA Cosmos 3 は、テキスト、画像、動画、環境音、およびロボットの行動（Action）を単一モデルで処理する世界基盤モデルである。
Mixture-of-Transformers（MoT）アーキテクチャを採用し、シーンを解釈する推論ブロックと、物理的に整合した動画や行動データを生成する生成ブロックを統合している。
ロボットの関節角度やグリッパーの位置、軌道ポイントなどの数値を直接出力でき、VANTAGE-Bench や Physics-IQ 等の主要ベンチマークで首位を獲得した。
Linux Foundation の OpenMDW 1.1 ライセンスの下で、モデルの重み、アーキテクチャ、コードが Hugging Face 等で公開されている。

2. 影響（Why）

「見て考える」推論と「動く」ための行動生成が密結合されたことで、従来バラバラだった知覚・計画・制御のパイプラインを 1 つの基盤モデルに集約できる。
物理法則を理解した合成データを生成できるため、実環境では収集困難な衝突やエッジケースの学習データをシミュレーション上で無限に生成可能になる。
開発者への影響: ロボット制御エンジニアは、Sim-to-Real（シミュレーションから実機への移行）のギャップを埋めるために、Cosmos 3 を用いた物理的に正確な合成データ生成とファインチューニングを主軸に据えることができる。
日本への影響: 製造業や物流倉庫向けのロボット開発を行う国内メーカーは、高価な実機実験の回数を抑制し、Cosmos 3 によるエッジケースの合成データ生成で開発サイクルを短縮する構成への移行が現実的になる。

3. 根拠・詳細（How）

How Cosmos 3 Helps Physical AI Think Before It Acts (2026-06-01 公開)

📁 GitHub 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (research)