SWE-bench Verified データセット公開──人間による検証で評価の信頼性を高めた 500 件の課題を収録
既存の SWE-bench に含まれていた「解けない課題」や「判定が不適切な課題」を排除し、エージェントの真のソフトウェア修正能力を測定可能にした。
リリース: 2024-08-13 · 読了 3 分記事の要約
1. 核心(What)
- SWE-bench Full から 500 件のサンプルを抽出し、人間のアノテーターがテストの妥当性を検証したサブセットである
- 元のデータセットに含まれていた「解決不可能な問題」や「正しい修正を誤って不合格とするテスト」が取り除かれている
- OpenAI の研究チームが検証プロセスに協力しており、GPT-4o などの最新モデルのコーディング能力評価における新標準となっている
2. 影響(Why)
- ベンチマークのノイズに惑わされず、エージェントのアーキテクチャ変更が純粋に性能向上に寄与したかを 1% 単位で正確に判断できる
- 500 件という軽量なデータセットにより、CI/CD パイプライン内での評価コストを抑えつつ、高精度なフィードバックループを回せる
- 開発者への影響: コーディングエージェントを開発するテックリードは、評価指標を従来の SWE-bench から Verified 版へ移行することで、誤判定による開発リソースの浪費を直接的に防げる。
- 日本への影響: AI による自動デバッグ機能を開発する国内 SaaS 企業やスタートアップは、この 500 件をベンチマークとして、自社プロダクトの性能をグローバル水準で定量化する基準にできる。
3. 根拠・詳細(How)
- SWE-bench Verified: スコア 0
- HuggingFace: SWE-bench/SWE-bench_Verified (2024-08-13 公開)