OpenAI、音声 API に `gpt-4o-mini-realtime` を追加──音声推論コストを 80% 削減
低遅延な音声対話モデル `gpt-4o-mini` の Realtime API 対応により、モバイルアプリ等でのリアルタイム音声処理が劇的に安価かつ高速になった。
リリース: 2024-12-17 · 読了 3 分何が起きた
Realtime API に軽量モデル `gpt-4o-mini-realtime-preview` を追加し、従来の `gpt-4o` 比でトークン単価を 80% 削減した
音声入力の Prompt Caching に対応し、キャッシュされた音声コンテキストの入力料金を 50% 割引価格で提供する
WebRTC を介した低遅延接続により、平均 1 秒未満の応答速度で自然な音声対話を実現している
なぜ重要
1 分あたり数円のコストで音声対話が可能になり、カスタマーサポートの一次受けを LLM で全自動化する際の ROI が劇的に改善する
ASR/LLM/TTS を分離せず単一モデルで処理するため、感情表現や割り込み検知など、従来のパイプライン方式では困難だった高度な対話制御が可能になる
👁️ 開発者
開発者は ASR と TTS の個別チューニングから解放され、単一の WebSocket/WebRTC 接続でマルチモーダルな対話を完結できるため、実装工数が従来の 1/3 以下に短縮される。
🇯🇵 日本
国内のコールセンター DX を進める大手 BPO ベンダーや、英会話学習 SaaS を提供するスタートアップは、既存の個別エンジン構成を OpenAI の統合 API へリプレイスする判断を迫られる。