開発エージェントの対話能力を測る Dialogue SWE-Bench ──コーディング性能との乖離を指摘
ユーザーとの対話で実世界のバグを修正する能力を自動評価。提案手法により既存比で成功率を 3-14% 向上。(原題: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents)