OpenAI、音声 API に `gpt-4o-mini-realtime` を追加──音声推論コストを 80% 削減

🧠Research🔥🔥🔥

低遅延な音声対話モデル `gpt-4o-mini` の Realtime API 対応により、モバイルアプリ等でのリアルタイム音声処理が劇的に安価かつ高速になった。

リリース: 2024-12-17 · 読了 3 分

何が起きた

Realtime API に軽量モデル `gpt-4o-mini-realtime-preview` を追加し、従来の `gpt-4o` 比でトークン単価を 80% 削減した
音声入力の Prompt Caching に対応し、キャッシュされた音声コンテキストの入力料金を 50% 割引価格で提供する
WebRTC を介した低遅延接続により、平均 1 秒未満の応答速度で自然な音声対話を実現している

なぜ重要

👁️ 開発者

開発者は ASR と TTS の個別チューニングから解放され、単一の WebSocket/WebRTC 接続でマルチモーダルな対話を完結できるため、実装工数が従来の 1/3 以下に短縮される。

🇯🇵 日本

国内のコールセンター DX を進める大手 BPO ベンダーや、英会話学習 SaaS を提供するスタートアップは、既存の個別エンジン構成を OpenAI の統合 API へリプレイスする判断を迫られる。