🧠Research🔥🔥

Allen Institute、言語指示で3D物体軌道を予測するモデル「MolmoMotion」を公開

動画フレームと自然言語指示から将来の3D移動軌跡を予測し、ロボット制御や動画生成の物理的整合性を向上させる。

リリース: 2026-06-17 · 読了 3
何が起きた
  • Molmo 2をバックボーンに採用し、言語指示に基づいた3D点群の将来軌跡を予測するモデルを構築

  • 116万件の動画から抽出した3D軌跡データセット「MolmoMotion-1M」を公開

  • 2,700件のクリップで構成される評価ベンチマーク「PointMotionBench」を導入

  • 自己回帰型(AR)とフローマッチング型(FM)の2つのモデルバリエーションを提供

なぜ重要
  • 従来の動画生成モデルが抱えていた「物理的にあり得ない動き」を、明示的な3D軌跡制御で解決する手法が実用レベルに達した。

  • ロボットの動作計画において、カメラ映像から直接「次に物体がどう動くか」を推論できるため、複雑な環境認識パイプラインを簡素化できる。

👁️ 開発者

動画生成やロボット制御のバックエンドを開発するエンジニアは、推論コストの高いフルフレーム生成の代わりに、軽量な3D軌跡予測を条件付けに用いることで、物理的に一貫した動作生成を低遅延で実装できる。

🇯🇵 日本

国内の製造業向けロボット制御や動画生成SaaSを展開する中規模ベンダーは、既存のRGBカメラ入力に本モデルを組み込むことで、ティーチングレスな物体操作や高精度な動画生成ワークフローへの転換を検討すべきである。