OpenAI、次世代音声 API 群を発表──GPT-Realtime-2 など 3 種でリアルタイム推論・翻訳・文字起こしを実現

🧠Research🔥🔥🔥

音声入力から直接推論する GPT-Realtime-2 を筆頭に、翻訳・文字起こしの各機能を API 化し、電話応対やライブ翻訳の実装コストを大幅に引き下げた。

リリース: 2026-05-08 · 読了 3 分

何が起きた

GPT-Realtime-2 は Big Bench Audio で 96.6 点を記録し、GPT-Realtime-1.5 から 15.2 ポイント精度が向上した
GPT-Realtime-Translate は 70 言語以上に対応し、うち 13 言語でリアルタイムの双方向翻訳をサポートする
GPT-Realtime-2 の価格は入力 100 万トークンあたり 32 ドル（キャッシュ済み 0.4 ドル）、出力 64 ドルに設定された
GPT-Realtime-Whisper は 1 分あたり 0.017 ドルで高精度のストリーミング文字起こしを提供する

なぜ重要

👁️ 開発者

音声エージェントを開発するエンジニアは、VAD（音声区間検出）やストリーミング処理の複雑なロジックを自前で組まずに、OpenAI のマネージドなエンドポイントに統合するだけで済むようになる。

🇯🇵 日本

[国内コールセンター・BPO 業種] のような大規模な顧客接点を持つ事業者は、既存の自動応答システムをこの API に差し替えることで、日本語特有の相槌や割り込みを含む自然な応対へのアップグレードが容易になる。