News Articles Projects About

🧠Research🔥🔥

ServiceNow、コードスイッチング対応 ASR 評価ベンチマークを公開──実務音声の多言語混在を測定

2 ヶ国語が混ざる「コードスイッチング」音声に対し、ElevenLabs や Gemini 3 Flash が高い転記精度と意味保持能力を示した。

リリース: 2026-06-09 · 読了 4 分

ASR LLM Benchmark Multilingual ServiceNow

Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech (2026-06-09 公開)

記事の要約

1. 核心（What）

HR・IT サポート領域の 4 言語ペア（西・仏・加仏・独と英語の混在）を含む実務特化型データセットを構築
単語誤り率（WER）に加え、意味保持を測る SWER と、下流タスクへの影響を測る AER の 3 指標で評価
ElevenLabs Scribe V2 が転記精度で首位、Gemini 3 Flash が意味理解を伴うタスクで高い耐性を示した
OpenAI Whisper は言語指定なしの場合、転記ではなく英語への翻訳を行うためコードスイッチング環境では WER が 0.16-0.61 まで悪化する

2. 影響（Why）

多言語が混在する実務音声において、単純な転記精度（WER）と業務遂行能力（AER）が必ずしも一致しないことが数値で証明された。
LALM（音声言語モデル）は、多少の聞き間違いがあっても文脈から正解を導き出すため、エージェント基盤として優位性がある。
開発者への影響: 音声エージェント開発者は、モデル選定時に WER だけでなく LLM を用いた AER（回答誤り率）を評価に組み込むことで、実運用上のリスクをより正確に把握できる。
日本への影響: [国内外資系 IT/製造業] の社内ヘルプデスクやインバウンド対応 SaaS において、日本語と英語が混在する音声の処理精度を向上させるためのモデル選定指針となる。

3. 根拠・詳細（How）

Whisper Large V3 Turbo WER (Lower Bound): スコア 0.16
ElevenLabs Scribe V2 vs AssemblyAI WER Delta: スコア 0.02
Can Voice Agents Handle Bilingual Customers? Benchmarking Frontier ASR on Code-Switched Speech (2026-06-09 公開)

← 日別ページに戻るカテゴリ一覧 (research)