Allen Institute、言語指示で3D物体軌道を予測するモデル「MolmoMotion」を公開

🧠Research🔥🔥

動画フレームと自然言語指示から将来の3D移動軌跡を予測し、ロボット制御や動画生成の物理的整合性を向上させる。

リリース: 2026-06-17 · 読了 3 分

何が起きた

なぜ重要

👁️ 開発者

動画生成やロボット制御のバックエンドを開発するエンジニアは、推論コストの高いフルフレーム生成の代わりに、軽量な3D軌跡予測を条件付けに用いることで、物理的に一貫した動作生成を低遅延で実装できる。

🇯🇵 日本

国内の製造業向けロボット制御や動画生成SaaSを展開する中規模ベンダーは、既存のRGBカメラ入力に本モデルを組み込むことで、ティーチングレスな物体操作や高精度な動画生成ワークフローへの転換を検討すべきである。