100万時間の人間行動動画データ「HumanNet」がロボット学習を加速──実機データ10倍分に匹敵
1人称・3人称視点の人間・物体操作動画に豊富な注釈を付与。1000時間の人間動画学習が100時間のロボット実機学習を凌駕。(原題: HumanNet: Scaling Human-centric Video Learning to One Million Hours)
リリース: 2026-05-07 · 読了 4 分何が起きた
100万時間に及ぶ人間中心のビデオコーパス「HumanNet」を構築し、1人称(egocentric)および3人称視点の両方を網羅した。
動画にはキャプション、動作説明、手や体の信号など、動作・相互作用を認識するための豊富な注釈が含まれている。
Qwen VLMを用いた検証において、HumanNetの1000時間の1人称動画での継続学習が、Magic Cobotの100時間の実機ロボットデータによる学習を上回る性能を記録した。
フィルタリング、時間構造化、視点多様性、注釈強化を設計原理とする、身体知能(Embodied Intelligence)のための系統的なデータキュレーション手法を提案した。
なぜ重要
ロボット実機データの収集コストがボトルネックとなっている現状で、インターネット上の人間動画を「ロボット学習の代替」としてスケールさせる具体的な道筋と定量的根拠が示された。
「単なる動画収集」ではなく、動作認識や相互作用に特化した注釈付与とキュレーションが、基盤モデルの性能向上に不可欠であることを実証している。
👁️ 開発者
身体知能やロボット制御を研究する開発者は、高コストな実機データ収集に注力する前に、HumanNetのような大規模人間動画を用いた事前学習パイプラインを検討すべき。10:1の比率で実機データを代替できる可能性は、開発コストを劇的に下げる。
🇯🇵 日本
国内固有の追加文脈は限定的(汎用的に有用)。
著者
📊 BenchmarkHumanNet Team
| Metric | Score | Δ |
|---|---|---|
| Training hours for superior performance (HumanNet vs Magic Cobot) | 1000 | +900.0 |