📜 papers

2026-06-16 · 1 topics

開発エージェントの対話能力を測る Dialogue SWE-Bench ──コーディング性能との乖離を指摘

ユーザーとの対話で実世界のバグを修正する能力を自動評価。提案手法により既存比で成功率を 3-14% 向上。（原題: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents）