News Articles Projects About

📜Papers🔥🔥

開発エージェントの対話能力を測る Dialogue SWE-Bench ──コーディング性能との乖離を指摘

ユーザーとの対話で実世界のバグを修正する能力を自動評価。提案手法により既存比で成功率を 3-14% 向上。（原題: Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents）

リリース: 2026-06-12 · 読了 5 分

AI Coding Agent Benchmark Dialogue Software Engineering

Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents (2026-06-12 公開)

記事の要約

1. 核心（What）

既存の SWE-Bench 等とは異なり、自律型ではなくユーザーとの対話を通じたソフトウェア問題の解決能力を評価する。
ペルソナに基づいたユーザーシミュレータを導入し、タスク解決率と対話の質を自動評価するフレームワークを構築。
スキーマ誘導型エージェントの導入により、既存のコーディングエージェントの性能をベースラインから 3-14% 改善。
実験により、モデルのコーディング能力の高さが必ずしも対話能力の高さに直結しないことを定量的に示した。

2. 影響（Why）

既存の自律型評価指標（Pass@k 等）では、Cursor や GitHub Copilot のような「対話型」ツールの実用性を正しく測定できない。
コーディング精度と対話能力の乖離を指摘しており、モデル選定において「対話性能」という独立した評価軸が必要であることを示唆している。
開発者への影響: 対話型コーディングアシスタントを開発・選定するエンジニアは、単なるコード生成精度だけでなく、本ベンチマークを用いて「対話を通じた解決率」を評価軸に加えるべき。モデルの単純なアップグレードが対話品質の低下を招く可能性に留意が必要。
日本への影響: 国内固有の追加文脈は限定的（汎用的に有用）。

3. 根拠・詳細（How）

Improvement over baselines: スコア 14（baseline 11）
Dialogue SWE-Bench: A Benchmark for Dialogue-Driven Coding Agents (2026-06-12 公開)

← 日別ページに戻るカテゴリ一覧 (papers)