Qwen、106万件のウェブ操作データセット WebWorldData を公開──A11y Tree 形式で世界をモデル化
ブラウザを一つの「世界」として捉え、操作後の画面状態を予測するワールドモデル学習用に、100万件超の高品質な操作ログを Apache 2.0 で提供する。
リリース: 2026-02-16 · 読了 3 分何が起きた
1.06M 件の (state, action, next_state) 遷移を含むウェブ操作軌跡を収録した大規模データセット。
状態表現に HTML ではなく Playwright で抽出した A11y Tree を採用し、LLM のトークン消費を抑えつつ構造把握を容易にした。
収集 URL は LLM によりアクセシビリティや品質など 4 指標でスコアリングされ、低品質なサイトや有害コンテンツを排除済み。
操作の 83.4% が要素へのクリックや入力で構成され、最大 30 ターンのマルチターン会話形式 (JSONL) で提供される。
なぜ重要
ウェブエージェント開発において「操作後の画面がどうなるか」のシミュレーションが可能になり、実環境への負荷を抑えた強化学習が可能になる。
👁️ 開発者
自律型ウェブエージェントを開発するエンジニアは、このデータセットでワールドモデルを構築することで、推論時に「次に何が起きるか」を予測させ、ハルシネーションによる誤操作を物理的に抑制できる。
🇯🇵 日本
ブラウザ操作の自動化 SaaS を展開する国内スタートアップは、高価な商用 LLM に頼らずとも、このオープンデータで軽量な特化型モデルを構築し、実行コストを下げつつ成功率を高める戦略が取れる。