OpenAI、Voice AI の低遅延配信技術を公開──Realtime API の背後にあるインフラ最適化手法
人間の会話と同等の応答速度を実現するため、WebRTC の採用や推論スタックの垂直統合により、グローバル規模での低遅延ストリーミングを可能にした。
リリース: 2024-10-01 · 読了 5 分何が起きた
人間の自然な会話の反応速度である 200ms〜500ms を目標値に設定し、音声のエンコードから推論、デコードまでの全工程を最適化した。
通信プロトコルに WebRTC を採用し、UDP ベースの低遅延転送とジッターバッファ管理により、不安定なネットワーク下でも安定した音声出力を実現した。
推論エンジンとオーディオ処理を同一ノード内で密結合させ、コンテキスト切り替えのオーバーヘッドを最小化するカスタムランタイムを構築した。
なぜ重要
音声 RAG やカスタマーサポート AI を構築する際、単なるモデル性能だけでなく、インフラ側の WebRTC 実装やエッジ配置の重要性が設計の前提となる。
API 経由で「人間と遜色ない間」を実現するための技術スタックが明示されたことで、自前実装と API 利用のコスト・パフォーマンス比較が容易になる。
👁️ 開発者
リアルタイム音声アプリを開発するエンジニアは、WebSocket ではなく WebRTC をベースにしたクライアント実装への移行が必須となり、フロントエンドの複雑性が増す一方でユーザー体験は劇的に向上する。
🇯🇵 日本
国内のコールセンター DX を推進する大手 SIer や SaaS ベンダーは、海外リージョン利用時のネットワーク遅延(RTT)を考慮し、日本国内のエッジ拠点(PoP)の有無が選定の決定打になる。