LLM へのタスク委譲でドキュメントが破損──20 回の反復で情報の忠実性が最大 34% 低下
長期間の反復タスクにおける LLM の信頼性を DELEGATE-52 ベンチマークで評価。Python 実行ワークフローでは劣化が 1% 未満に抑制。(原題: LLMs Corrupt Your Documents When You Delegate)
リリース: 2026-05-15 · 読了 5 分記事の要約
1. 核心(What)
- 20 回の反復的なタスク委譲(Delegation)において、SOTA モデルでも情報の忠実性が 19–34% 劣化することを確認
- DELEGATE-52 ベンチマークを導入し、ドキュメントやコードの意味的な整合性をセマンティックパースを用いて厳密に測定
- Python 実行を伴うワークフローでは情報の劣化が平均 1% 未満に抑えられ、自然言語のみの処理に比べ高い堅牢性を示した
- 短期的なベンチマークスコアが高くても、長期(Long-horizon)の反復ワークフローにおける信頼性は保証されないことを指摘
2. 影響(Why)
- LLM を使った自動編集ワークフローにおいて、人間が介在しない連続的な処理が「静かな情報の欠落」を招くリスクを定量化した
- モデル単体の性能向上だけでは解決できない「長期間の委譲における信頼性」という新たなエンジニアリング課題を提示した
- Python 等のコード実行を介在させることが、情報の忠実性を維持するための極めて有効な防衛策であることを示した
- 開発者への影響: エージェントや自動ドキュメント更新システムを構築する開発者は、モデルの出力を過信せず、検証ループや決定論的なツール(Python 等)をワークフローに組み込むべき。単一プロンプトの精度ではなく、反復時の累積エラー率を監視する運用が不可欠となる。
- 日本への影響: 国内固有の追加文脈は限定的(汎用的に有用)。
3. 根拠・詳細(How)
- Artifact Fidelity (20 iterations): スコア 66(baseline 100)
- Python Workflow Fidelity: スコア 99(baseline 100)
- Further Notes on Our Recent Research on AI Delegation and Long-Horizon Reliability - Microsoft Research (2026-05-15 公開)