OpenAI、Realtime API に GPT-5 級の音声モデル GPT-Realtime-2 など 3 種を追加
GPT-5 クラスの推論力を備えた音声対話モデルに加え、70 言語対応のリアルタイム翻訳と Whisper 統合により、複雑な業務をこなす音声エージェントの実装が可能になった。
リリース: 2026-05-07 · 読了 3 分記事の要約
1. 核心(What)
- GPT-Realtime-2 は GPT-5 クラスの推論エンジンを搭載し、複雑なユーザー要求に対するリアルタイムな音声応答を実現。
- GPT-Realtime-Translate は 70 以上の入力言語と 13 の出力言語に対応し、会話のペースを維持したまま翻訳を行う。
- GPT-Realtime-Whisper により、遅延の少ないライブ文字起こし(Speech-to-Text)機能が API 経由で利用可能。
- 料金体系は GPT-Realtime-2 がトークン課金、Translate と Whisper が分単位の課金方式を採用。
2. 影響(Why)
- 音声対話が『単なる応答』から『推論を伴う実務』へと進化したことで、人間のオペレーターを介さずに複雑な手続きを完結させる音声エージェントの構築が現実的になった。
- 開発者への影響: 開発者は、音声認識・推論・音声合成の各モデルを個別に繋ぎ合わせる手間を省き、単一の API エンドポイントで GPT-5 級の知能を持つ音声インターフェースを構築できる。
- 日本への影響: インバウンド需要の高い国内の宿泊施設や観光案内向け SaaS を開発するスタートアップは、翻訳と予約システムを直結させた『多言語対応の自動電話応対』を、追加のモデル開発なしに実装できる。
3. 根拠・詳細(How)
- OpenAI launches new voice intelligence features in its API | TechCrunch (2026-05-07 公開)