Google、音声翻訳モデル Gemini 3.5 Live Translate を公開──70言語超のリアルタイム同時通訳に対応

従来の「話し終わりを待つ」翻訳から脱却し、話者の抑揚を維持したまま数秒の遅延で継続的に音声を生成する API が提供開始された。

リリース: 2026-06-09 · 読了 3
何が起きた
  • 70以上の言語を自動検出し、2,000以上の言語ペアでリアルタイムな音声対音声(Speech-to-Speech)翻訳を実現。

  • Gemini Live API が Public Preview として公開され、Agora や LiveKit、Pipecat などの主要なリアルタイム通信 SDK と即座に連携可能。

  • 生成された全ての音声には SynthID による電子透かしが埋め込まれ、AI 生成物の識別と誤情報拡散の防止を図る。

なぜ重要
  • ターン制の対話ではなく「数秒遅れの同時通訳」が API 経由で利用可能になったことで、グローバルなカスタマーサポートや多言語会議の UX が根本から変わる。

  • 開発者は複雑な音声ストリーミング基盤を意識せず、Gemini Live API を既存の WebRTC インフラに差し込むだけで、話者の感情やトーンを保った翻訳機能を実装できる。

👁️ 開発者

音声・ビデオ通話アプリを開発するエンジニアは、LiveKit 等の統合済み SDK を利用することで、翻訳・合成のパイプライン構築をスキップし、低レイテンシな同時通訳機能を本番環境へ迅速にデプロイできる。

🇯🇵 日本

インバウンド需要の高い国内の旅行・観光業や、海外拠点と頻繁に連携する製造業の現場において、Google Meet や専用アプリを通じた「言語障壁のないリアルタイムコミュニケーション」の導入が加速し、通訳コストが大幅に圧縮される。