🧠Research🔥🔥

ServiceNow、音声エージェント評価ベンチマーク EVA-Bench 2.0 を公開──3ドメイン・213シナリオに拡大

航空・IT・医療の3業種に特化した 121 個のツール操作を含む、実務レベルの音声 AI エージェント評価用オープンソースデータセット。

リリース: 2026-06-04 · 読了 3
何が起きた
  • 航空カスタマーサービス (CSM)、エンタープライズ IT (ITSM)、ヘルスケア HR (HRSD) の 3 ドメインにわたり、213 の評価シナリオを収録。

  • GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 の 3 つのフロンティアモデルを用いて、すべてのシナリオが解決可能であることを検証済み。

  • 音声エージェントの主要な失敗要因である「認証フロー (OTP 等)」や「解決不可能な要求」など、非ハッピーパスのシナリオを重点的に設計。

  • SyGra と呼ばれるグラフベースの合成データ生成パイプラインにより、ユーザーの目的、初期データベース、正解トレースの整合性を担保。

なぜ重要
  • 従来のベンチマークでは欠落していた「電話特有の曖昧な要求」や「業務規定に基づく拒絶」への対応力を数値化できるため、実戦投入前のエージェントの信頼性評価が具体化する。

👁️ 開発者

音声 AI 開発者は、35 以上のワークフローと 121 のツール API 定義を用いて、自社エージェントが「認証を正しく突破できるか」「権限外の操作を拒否できるか」を自動テストできる。

🇯🇵 日本

国内の [コールセンター BPO 業種] や [大手金融・保険のカスタマーサポート部門] は、LLM エージェント導入時の PoC 評価基準を「単なる応答の良さ」から「実務上の例外処理の堅牢性」へとシフトさせる指標として活用できる。