News Articles Projects About

🎨Product🔥🔥

Google、音声翻訳モデル Gemini 3.5 Live Translate を公開──70言語超のリアルタイム同時通訳に対応

従来の「話し終わりを待つ」翻訳から脱却し、話者の抑揚を維持したまま数秒の遅延で継続的に音声を生成する API が提供開始された。

リリース: 2026-06-09 · 読了 3 分

Gemini DeepMind Speech-to-Speech Live API Translation

Fluid, natural voice translation with Gemini 3.5 Live Translate (2026-06-09 公開)

記事の要約

1. 核心（What）

70以上の言語を自動検出し、2,000以上の言語ペアでリアルタイムな音声対音声（Speech-to-Speech）翻訳を実現。
Gemini Live API が Public Preview として公開され、Agora や LiveKit、Pipecat などの主要なリアルタイム通信 SDK と即座に連携可能。
生成された全ての音声には SynthID による電子透かしが埋め込まれ、AI 生成物の識別と誤情報拡散の防止を図る。

2. 影響（Why）

ターン制の対話ではなく「数秒遅れの同時通訳」が API 経由で利用可能になったことで、グローバルなカスタマーサポートや多言語会議の UX が根本から変わる。
開発者は複雑な音声ストリーミング基盤を意識せず、Gemini Live API を既存の WebRTC インフラに差し込むだけで、話者の感情やトーンを保った翻訳機能を実装できる。
開発者への影響: 音声・ビデオ通話アプリを開発するエンジニアは、LiveKit 等の統合済み SDK を利用することで、翻訳・合成のパイプライン構築をスキップし、低レイテンシな同時通訳機能を本番環境へ迅速にデプロイできる。
日本への影響: インバウンド需要の高い国内の旅行・観光業や、海外拠点と頻繁に連携する製造業の現場において、Google Meet や専用アプリを通じた「言語障壁のないリアルタイムコミュニケーション」の導入が加速し、通訳コストが大幅に圧縮される。

3. 根拠・詳細（How）

Fluid, natural voice translation with Gemini 3.5 Live Translate (2026-06-09 公開)

📘 Docs 🎮 Demo

← 日別ページに戻るカテゴリ一覧 (product)