開発エージェントの対話能力を測る Dialogue SWE-Bench ──コーディング性能との乖離を指摘

ユーザーとの対話で実世界のバグを修正する能力を自動評価。提案手法により既存比で成功率を 3-14% 向上。(原題: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents)

リリース: 2026-06-12 · 読了 5
何が起きた
  • 既存の SWE-Bench 等とは異なり、自律型ではなくユーザーとの対話を通じたソフトウェア問題の解決能力を評価する。

  • ペルソナに基づいたユーザーシミュレータを導入し、タスク解決率と対話の質を自動評価するフレームワークを構築。

  • スキーマ誘導型エージェントの導入により、既存のコーディングエージェントの性能をベースラインから 3-14% 改善。

  • 実験により、モデルのコーディング能力の高さが必ずしも対話能力の高さに直結しないことを定量的に示した。

なぜ重要
  • 既存の自律型評価指標(Pass@k 等)では、Cursor や GitHub Copilot のような「対話型」ツールの実用性を正しく測定できない。

  • コーディング精度と対話能力の乖離を指摘しており、モデル選定において「対話性能」という独立した評価軸が必要であることを示唆している。

👁️ 開発者

対話型コーディングアシスタントを開発・選定するエンジニアは、単なるコード生成精度だけでなく、本ベンチマークを用いて「対話を通じた解決率」を評価軸に加えるべき。モデルの単純なアップグレードが対話品質の低下を招く可能性に留意が必要。

🇯🇵 日本

国内固有の追加文脈は限定的(汎用的に有用)。


著者
Dialogue SWE-Bench Authors
📊 Benchmark
MetricScoreΔ
Improvement over baselines14+3.0