🧠Research🔥🔥

NVIDIA、物理 AI 向け統合モデル Cosmos 3 を公開──推論と行動を 1 パスで処理する MoT 採用

ロボティクスや自動運転に必要な「世界理解・推論・行動生成」を単一の Mixture-of-Transformers アーキテクチャで統合し、16B/64B の 2 サイズで提供される。

リリース: 2026-06-01 · 読了 5
何が起きた
  • NVIDIA が物理 AI 向け基盤モデル Cosmos 3 を公開。16B (Nano) と 64B (Super) の 2 サイズ展開で、Hugging Face でオープン公開された。

  • Mixture-of-Transformers (MoT) アーキテクチャにより、次トークン予測による「推論(AR)」とデノイジングによる「生成(DM)」を単一モデル内で統合。

  • テキスト、画像、動画、音声、アクション(行動ベクトル)を共通の表現空間で処理し、物理的な因果関係に基づいた将来予測やロボット制御を実現する。

  • 16B モデルは RTX 6000 等のワークステーション級 GPU で動作し、Hugging Face Diffusers ライブラリ経由で既存の生成ワークフローに統合可能。

なぜ重要
  • これまで別々だった「世界モデル(環境予測)」と「行動モデル(制御)」を 1 つの順伝播で処理できるため、物理法則に矛盾しない高度なロボット操作の実装が容易になる。

  • 学習用の合成データ生成(SDG)用データセットも同時公開されており、実機データが極端に少ないエッジケース(事故回避など)のシミュレーション環境を自前で構築するコストが大幅に下がる。

👁️ 開発者

ロボティクスエンジニアは、複雑なマルチモデル構成を Cosmos 3 に集約することで、推論レイテンシの削減とシステム保守性の向上を同時に達成できる。Diffusers 互換のため、Web エンジニアでも Python 数行で物理 AI のプロトタイプを構築可能になる。

🇯🇵 日本

製造業や物流ロボットを開発する国内メーカー([大手重工・ロボットベンダー] 規模)は、自社環境の動画データを fine-tune することで、特定現場に特化した高精度な自律制御モデルを早期に立ち上げる選択肢が現実的になる。