🧠Research🔥🔥🔥

OpenAI、次世代音声 API 群を発表──GPT-Realtime-2 など 3 種でリアルタイム推論・翻訳・文字起こしを実現

音声入力から直接推論する GPT-Realtime-2 を筆頭に、翻訳・文字起こしの各機能を API 化し、電話応対やライブ翻訳の実装コストを大幅に引き下げた。

リリース: 2026-05-08 · 読了 3
何が起きた
  • GPT-Realtime-2 は Big Bench Audio で 96.6 点を記録し、GPT-Realtime-1.5 から 15.2 ポイント精度が向上した

  • GPT-Realtime-Translate は 70 言語以上に対応し、うち 13 言語でリアルタイムの双方向翻訳をサポートする

  • GPT-Realtime-2 の価格は入力 100 万トークンあたり 32 ドル(キャッシュ済み 0.4 ドル)、出力 64 ドルに設定された

  • GPT-Realtime-Whisper は 1 分あたり 0.017 ドルで高精度のストリーミング文字起こしを提供する

なぜ重要
  • 音声・テキスト・LLM・音声を統合した単一モデルにより、従来の多段パイプラインで発生していた遅延を解消し、人間並みの自然な会話応答が可能になる

  • 翻訳や文字起こしが特化型 API として分離されたことで、フルスペックの LLM を呼び出す必要がない軽量かつ安価な実装パスが確保された

👁️ 開発者

音声エージェントを開発するエンジニアは、VAD(音声区間検出)やストリーミング処理の複雑なロジックを自前で組まずに、OpenAI のマネージドなエンドポイントに統合するだけで済むようになる。

🇯🇵 日本

[国内 コールセンター・BPO 業種] のような大規模な顧客接点を持つ事業者は、既存の自動応答システムをこの API に差し替えることで、日本語特有の相槌や割り込みを含む自然な応対へのアップグレードが容易になる。