Jum Blog
NewsArticlesProjectsAbout
  1. Home
  2. ›
  3. News
  4. ›
  5. 2026-06-16
  6. ›
  7. papers
📜 papers

2026-06-16 · 1 topics

開発エージェントの対話能力を測る Dialogue SWE-Bench ──コーディング性能との乖離を指摘

🔥🔥

ユーザーとの対話で実世界のバグを修正する能力を自動評価。提案手法により既存比で成功率を 3-14% 向上。(原題: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents)

© Jumtra Blog 2026.