研究チーム、LLM 委任ワークフロー評価ベンチマーク DELEGATE-52 を公開──GPT-5.4 等でも 25% の文書破損を確認

長期的なドキュメント編集タスクにおいて、最新のフロンティアモデルですらサイレントにエラーを蓄積し、最終的に 4 分の 1 の内容を損なう実態を 52 の専門領域で定量化した。

リリース: 2026-04-17 · 読了 3
何が起きた
  • DELEGATE-52 は、コーディング、結晶学、楽譜など 52 の専門ドメインにわたる長期的な文書編集タスクをシミュレートするベンチマークである。

  • Gemini 3.1 Pro、Claude 4.6 Opus、GPT 5.4 を含む 19 の主要モデルを検証した結果、ワークフロー終盤で平均 25% の文書内容が破損した。

  • エージェント的なツール利用を導入しても DELEGATE-52 のスコアは改善せず、文書サイズや対話回数が増えるほど劣化が深刻化する傾向が確認された。

なぜ重要
  • 「AI に任せきり」のワークフローを組む際、単発の精度ではなく、多段階の編集で蓄積されるサイレントな劣化を検知するガードレール設計が不可欠になる。

👁️ 開発者

エンジニアは、長期的なエージェント型タスクにおいて、各ステップでの diff 検証やハッシュ値による整合性チェックを実装し、モデルによる意図しない書き換えを物理的に防ぐ実装が求められる。

🇯🇵 日本

国内の [製造業・法務 SaaS] などの専門文書を自動編集するサービスを提供する事業者は、RAG やエージェント機能をリリースする前に、DELEGATE-52 のような多段階編集の劣化耐性テストを評価パイプラインに組み込む必要がある。