ServiceNow、音声エージェント評価ベンチマーク EVA-Bench 2.0 を公開──3ドメイン・213シナリオに拡大
航空・IT・医療の3業種に特化した 121 個のツール操作を含む、実務レベルの音声 AI エージェント評価用オープンソースデータセット。
リリース: 2026-06-04 · 読了 3 分何が起きた
航空カスタマーサービス (CSM)、エンタープライズ IT (ITSM)、ヘルスケア HR (HRSD) の 3 ドメインにわたり、213 の評価シナリオを収録。
GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 の 3 つのフロンティアモデルを用いて、すべてのシナリオが解決可能であることを検証済み。
音声エージェントの主要な失敗要因である「認証フロー (OTP 等)」や「解決不可能な要求」など、非ハッピーパスのシナリオを重点的に設計。
SyGra と呼ばれるグラフベースの合成データ生成パイプラインにより、ユーザーの目的、初期データベース、正解トレースの整合性を担保。
なぜ重要
従来のベンチマークでは欠落していた「電話特有の曖昧な要求」や「業務規定に基づく拒絶」への対応力を数値化できるため、実戦投入前のエージェントの信頼性評価が具体化する。
👁️ 開発者
音声 AI 開発者は、35 以上のワークフローと 121 のツール API 定義を用いて、自社エージェントが「認証を正しく突破できるか」「権限外の操作を拒否できるか」を自動テストできる。
🇯🇵 日本
国内の [コールセンター BPO 業種] や [大手金融・保険のカスタマーサポート部門] は、LLM エージェント導入時の PoC 評価基準を「単なる応答の良さ」から「実務上の例外処理の堅牢性」へとシフトさせる指標として活用できる。