OpenAI、音声特化モデル GPT-Realtime-2 と Translate を発表──Whisper も刷新

🧠Research🔥🔥🔥

既存の Realtime API の後継となる低遅延モデル GPT-Realtime-2 と、多言語翻訳に特化した Translate モデルにより、音声対話の実装コストと精度を大幅に改善する。

リリース: 2026-05-08 · 読了 3 分

何が起きた

なぜ重要

音声対話アプリの開発において、レイテンシ（遅延）がボトルネックだったが、GPT-Realtime-2 の採用により「人間同士の会話」に近い 500ms 以下の応答が標準化される。
翻訳特化モデルの登場により、汎用 LLM を介した翻訳パイプラインよりもトークン消費を抑えつつ、文脈を維持した高精度な通訳機能を実装できる。

👁️ 開発者

音声認識・処理・生成を個別のモデルで繋いでいた開発者は、GPT-Realtime-2 への移行でシステム構成を簡素化でき、API コストの最適化と保守性の向上が見込める。

🇯🇵 日本

インバウンド対応の接客ロボットや、英会話学習アプリを開発する国内 EdTech スタートアップは、既存の音声合成エンジンを本モデルへ置き換えることで、ユーザー体験の質を一段階引き上げることが可能になる。