OpenAI、次世代音声 API 群を発表──GPT-Realtime-2 など 3 種でリアルタイム推論・翻訳・文字起こしを実現
音声入力から直接推論する GPT-Realtime-2 を筆頭に、翻訳・文字起こしの各機能を API 化し、電話応対やライブ翻訳の実装コストを大幅に引き下げた。
リリース: 2026-05-08 · 読了 3 分何が起きた
GPT-Realtime-2 は Big Bench Audio で 96.6 点を記録し、GPT-Realtime-1.5 から 15.2 ポイント精度が向上した
GPT-Realtime-Translate は 70 言語以上に対応し、うち 13 言語でリアルタイムの双方向翻訳をサポートする
GPT-Realtime-2 の価格は入力 100 万トークンあたり 32 ドル(キャッシュ済み 0.4 ドル)、出力 64 ドルに設定された
GPT-Realtime-Whisper は 1 分あたり 0.017 ドルで高精度のストリーミング文字起こしを提供する
なぜ重要
音声・テキスト・LLM・音声を統合した単一モデルにより、従来の多段パイプラインで発生していた遅延を解消し、人間並みの自然な会話応答が可能になる
翻訳や文字起こしが特化型 API として分離されたことで、フルスペックの LLM を呼び出す必要がない軽量かつ安価な実装パスが確保された
👁️ 開発者
音声エージェントを開発するエンジニアは、VAD(音声区間検出)やストリーミング処理の複雑なロジックを自前で組まずに、OpenAI のマネージドなエンドポイントに統合するだけで済むようになる。
🇯🇵 日本
[国内 コールセンター・BPO 業種] のような大規模な顧客接点を持つ事業者は、既存の自動応答システムをこの API に差し替えることで、日本語特有の相槌や割り込みを含む自然な応対へのアップグレードが容易になる。