VLA モデルは環境の僅かな変化で成功率が 80% から 20% へ急落──空間推論の脆弱性を特定
視覚・言語・行動(VLA)モデルが直面する未知の課題を体系化。空間配置や指示の微細な変化への耐性を評価。(原題: Novel Problems in Vision-Language-Action Models)
リリース: 2025-03-06 · 読了 4 分何が起きた
既存の VLA モデルは学習データと酷似した環境で 80% の成功率を出すが、物体の相対位置を数センチ変更しただけで成功率が 21.5% まで低下する
指示文に「左側の物体」などの空間的制約を加えると、行動生成の正確性がベースラインから 38% 減少することが判明
複数の物体が重なる遮蔽(Occlusion)シナリオにおいて、把持(Grasping)タスクの失敗率が 55% に達し、視覚的な空間把握に重大な欠陥がある
10 ステップ以上の長期タスク(Long-horizon tasks)では、中間状態の誤認により成功率が 10% 未満にまで減衰する
なぜ重要
VLA モデルの「汎化性能」が、実は特定の物体配置や言語表現への過学習に依存しているリスクを浮き彫りにした
ロボットのデモが成功しても、実環境での僅かなズレで動作不能になる理由が「空間推論の欠如」にあることを定量的に示している
今後の VLA 研究が単なるモデル規模の拡大ではなく、物理的な整合性と論理的推論の強化へシフトする必要性を裏付けている
👁️ 開発者
ロボット制御に VLA を採用する開発者は、本論文が示す「空間的摂動テスト」を評価プロセスに組み込むべき。単純な成功率だけでなく、環境の変化に対する感度を分析しなければ実運用は極めて危険である。
🇯🇵 日本
国内固有の追加文脈は限定的(汎用的に有用)。