研究チーム、LLM への業務委任による文書汚染を調査──最先端モデルでも長期間編集で 25% が破損
GPT 5.4 や Claude 4.6 級でも、複雑な専門文書の反復編集において「サイレントなエラー」が蓄積し、最終的に 4 分の 1 の内容が損なわれる実態が判明した。
リリース: 2026-04-17 · 読了 3 分何が起きた
52の専門領域を網羅したベンチマーク DELEGATE-52 を構築し、19 種類の LLM の信頼性を評価した。
Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 などの最上位モデルでも、長いワークフロー終了時に平均 25% の文書内容が破損した。
エージェントによるツール利用(Agentic tool use)を導入しても、この文書汚染の発生率は改善しなかった。
文書サイズが増大し、インタラクション回数が重なるほど、エラーが疎らに発生しつつ蓄積する「サイレント・コラプション」が深刻化する。
なぜ重要
「Vibe Coding」のような LLM への丸投げ開発は、短期のプロジェクトでは動いても、長期的なメンテナンスでコードベースを修復不能なレベルまで汚染するリスクを数値で示した。
RAG やエージェントを構築する際、単発の精度ではなく「編集の繰り返しによる品質劣化」を監視するガードレール設計が必須となる。
👁️ 開発者
エージェント開発者は、LLM に直接ファイルを上書きさせるのではなく、差分(diff)の人間によるレビューや、各ステップでの形式チェック(Linter 等)を強制するパイプラインを組むべき。
🇯🇵 日本
[国内 AI 受託開発・SaaS ベンダー] は、LLM による自動ドキュメント生成・更新機能を売りにする場合、この 25% の劣化率を前提とした品質保証(QA)プロセスを顧客に提示しなければ、納品後の信頼失墜に直結する。