研究チーム、LLM への業務委任による文書汚染を調査──最先端モデルでも長期間編集で 25% が破損

🧠Research🔥🔥

GPT 5.4 や Claude 4.6 級でも、複雑な専門文書の反復編集において「サイレントなエラー」が蓄積し、最終的に 4 分の 1 の内容が損なわれる実態が判明した。

リリース: 2026-04-17 · 読了 3 分

何が起きた

52の専門領域を網羅したベンチマーク DELEGATE-52 を構築し、19 種類の LLM の信頼性を評価した。
Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 などの最上位モデルでも、長いワークフロー終了時に平均 25% の文書内容が破損した。
エージェントによるツール利用（Agentic tool use）を導入しても、この文書汚染の発生率は改善しなかった。
文書サイズが増大し、インタラクション回数が重なるほど、エラーが疎らに発生しつつ蓄積する「サイレント・コラプション」が深刻化する。

なぜ重要

「Vibe Coding」のような LLM への丸投げ開発は、短期のプロジェクトでは動いても、長期的なメンテナンスでコードベースを修復不能なレベルまで汚染するリスクを数値で示した。
RAG やエージェントを構築する際、単発の精度ではなく「編集の繰り返しによる品質劣化」を監視するガードレール設計が必須となる。

👁️ 開発者

エージェント開発者は、LLM に直接ファイルを上書きさせるのではなく、差分（diff）の人間によるレビューや、各ステップでの形式チェック（Linter 等）を強制するパイプラインを組むべき。

🇯🇵 日本

[国内 AI 受託開発・SaaS ベンダー] は、LLM による自動ドキュメント生成・更新機能を売りにする場合、この 25% の劣化率を前提とした品質保証（QA）プロセスを顧客に提示しなければ、納品後の信頼失墜に直結する。