News Articles Projects About

🧠Research🔥🔥

ServiceNow、音声エージェント評価ベンチマーク EVA-Bench 2.0 を公開──3ドメイン・213シナリオに拡大

航空・IT・医療の3業種に特化した 121 個のツール操作を含む、実務レベルの音声 AI エージェント評価用オープンソースデータセット。

リリース: 2026-06-04 · 読了 3 分

Voice Agent Benchmark Dataset Tool-use ServiceNow

EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios (2026-06-04 公開)

記事の要約

1. 核心（What）

航空カスタマーサービス (CSM)、エンタープライズ IT (ITSM)、ヘルスケア HR (HRSD) の 3 ドメインにわたり、213 の評価シナリオを収録。
GPT-5.4、Gemini 3.1 Pro、Claude Opus 4.6 の 3 つのフロンティアモデルを用いて、すべてのシナリオが解決可能であることを検証済み。
音声エージェントの主要な失敗要因である「認証フロー (OTP 等)」や「解決不可能な要求」など、非ハッピーパスのシナリオを重点的に設計。
SyGra と呼ばれるグラフベースの合成データ生成パイプラインにより、ユーザーの目的、初期データベース、正解トレースの整合性を担保。

2. 影響（Why）

従来のベンチマークでは欠落していた「電話特有の曖昧な要求」や「業務規定に基づく拒絶」への対応力を数値化できるため、実戦投入前のエージェントの信頼性評価が具体化する。
開発者への影響: 音声 AI 開発者は、35 以上のワークフローと 121 のツール API 定義を用いて、自社エージェントが「認証を正しく突破できるか」「権限外の操作を拒否できるか」を自動テストできる。
日本への影響: 国内の [コールセンター BPO 業種] や [大手金融・保険のカスタマーサポート部門] は、LLM エージェント導入時の PoC 評価基準を「単なる応答の良さ」から「実務上の例外処理の堅牢性」へとシフトさせる指標として活用できる。

3. 根拠・詳細（How）

EVA-Bench 2.0 (Scenarios): スコア 213（baseline 50）
EVA-Bench Data 2.0: 3 Domains, 121 Tools, 213 Scenarios (2026-06-04 公開)

← 日別ページに戻るカテゴリ一覧 (research)