News Articles Projects About

📜Papers🔥🔥

Alibaba、言語世界モデル Qwen-AgentWorld 公開──7領域のシミュレーションと強化学習を支援

1000万件超の環境相互作用データで学習し、エージェント環境をシミュレートする35B/397Bの言語世界モデル。

リリース: 2026-06-23 · 読了 4 分

LLM Agent World Model Qwen Reinforcement Learning

Qwen-AgentWorld arXiv 論文 (2026-06-23 公開)

記事の要約

1. 核心（What）

Alibaba は、7つの領域にわたるエージェント環境をシミュレート可能な言語世界モデル Qwen-AgentWorld-35B-A3B および Qwen-AgentWorld-397B-A17B を公開した。
リアルワールドにおける1000万件以上の環境相互作用軌跡データを用い、CPT（継続事前学習）、SFT、RL（強化学習）の3段階で訓練されている。
5つのフロンティアモデルによる実環境の相互作用から構築した評価ベンチマーク AgentWorldBench において、既存モデルを上回るシミュレーション精度を実証した。

2. 影響（Why）

強化学習コストの削減: 実環境や高コストな API 連携を必要とせず、Qwen-AgentWorld をデカップリングされたシミュレータとして活用することで、数千の環境を並列かつ低コストにシミュレートできる。
国内開発チームの選択肢: 国内で自社プロダクト向けにエージェント型サービスを開発する中規模スタートアップ（特にECやSaaS領域）は、実環境への負荷をかけることなく、ローカル環境で安全に強化学習ループを回す体制を構築できる。

3. 根拠・詳細（How）

3段階の訓練プロセス: 状態遷移ダイナミクスを注入する CPT、次状態予測を活性化する SFT、そしてルールとルーブリックを組み合わせた報酬設計による RL を経て、シミュレーションの忠実度を担保している。
AgentWorldBench での評価: 9つの既存ベンチマークから抽出した実世界相互作用データをもとにシミュレーション精度を評価し、競合のフロンティアモデルを上回る性能を示した。

4. 展望・課題（Next）

シミュレーションの限界: 複雑な動的環境や未知の API 仕様に対するシミュレーション精度には依然として課題があり、さらなる汎化性能の検証が求められる。
コードとモデルの公開: GitHub 上で QwenLM/Qwen-AgentWorld としてコードが公開されており、開発コミュニティによる追試と応用が予定されている。

← 日別ページに戻るカテゴリ一覧 (papers)