OpenAI、Realtime API に GPT-5 級の音声モデル GPT-Realtime-2 など 3 種を追加
GPT-5 クラスの推論力を備えた音声対話モデルに加え、70 言語対応のリアルタイム翻訳と Whisper 統合により、複雑な業務をこなす音声エージェントの実装が可能になった。
リリース: 2026-05-07 · 読了 3 分何が起きた
GPT-Realtime-2 は GPT-5 クラスの推論エンジンを搭載し、複雑なユーザー要求に対するリアルタイムな音声応答を実現。
GPT-Realtime-Translate は 70 以上の入力言語と 13 の出力言語に対応し、会話のペースを維持したまま翻訳を行う。
GPT-Realtime-Whisper により、遅延の少ないライブ文字起こし(Speech-to-Text)機能が API 経由で利用可能。
料金体系は GPT-Realtime-2 がトークン課金、Translate と Whisper が分単位の課金方式を採用。
なぜ重要
音声対話が『単なる応答』から『推論を伴う実務』へと進化したことで、人間のオペレーターを介さずに複雑な手続きを完結させる音声エージェントの構築が現実的になった。
👁️ 開発者
開発者は、音声認識・推論・音声合成の各モデルを個別に繋ぎ合わせる手間を省き、単一の API エンドポイントで GPT-5 級の知能を持つ音声インターフェースを構築できる。
🇯🇵 日本
インバウンド需要の高い国内の宿泊施設や観光案内向け SaaS を開発するスタートアップは、翻訳と予約システムを直結させた『多言語対応の自動電話応対』を、追加のモデル開発なしに実装できる。