研究チーム、LLM への業務委任による文書汚染を調査──最先端モデルでも長期間編集で 25% が破損
The Facts
- 52の専門領域を網羅したベンチマーク DELEGATE-52 を構築し、19 種類の LLM の信頼性を評価した。
- Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 などの最上位モデルでも、長いワークフロー終了時に平均 25% の文書内容が破損した。
- エージェントによるツール利用(Agentic tool use)を導入しても、この文書汚染の発生率は改善しなかった。
- 文書サイズが増大し、インタラクション回数が重なるほど、エラーが疎らに発生しつつ蓄積する「サイレント・コラプション」が深刻化する。
Why It Matters
- 「Vibe Coding」のような LLM への丸投げ開発は、短期のプロジェクトでは動いても、長期的なメンテナンスでコードベースを修復不能なレベルまで汚染するリスクを数値で示した。
- RAG やエージェントを構築する際、単発の精度ではなく「編集の繰り返しによる品質劣化」を監視するガードレール設計が必須となる。
For Developers
エージェント開発者は、LLM に直接ファイルを上書きさせるのではなく、差分(diff)の人間によるレビューや、各ステップでの形式チェック(Linter 等)を強制するパイプラインを組むべき。
For Japan
[国内 AI 受託開発・SaaS ベンダー] は、LLM による自動ドキュメント生成・更新機能を売りにする場合、この 25% の劣化率を前提とした品質保証(QA)プロセスを顧客に提示しなければ、納品後の信頼失墜に直結する。