Google が最新の音声モデル Gemini 3.5 をベースとした「Gemini 3.5 Live Translate」をリリースした。Near real-time での自然な音声翻訳を実現し、70 以上の言語に対応する。6 月 9 日より段階的なロールアウトが開始されている。

70 言語対応のリアルタイム翻訳

Gemini 3.5 Live Translate の最大の特徴は、言語自動検出と低遅延での翻訳生成を両立した点だ。70 以上の言語を自動判別し、「話者のイントネーション、ペース、ピッチを保持したまま」自然な翻訳音声を生成する。

Google Meet でのサポートは特に拡張的で、2000 以上の言語組み合わせでの翻訳が可能になる。たとえば日本語から 100 言語への翻訳、その逆方向など、あらゆる言語ペアで利用できる。

ノイズに強く、リアルタイム対応

背景音が存在する環境下での音声認識も改善されている。会議室の雑音、複数人の声が混在する状況でも、翻訳精度を維持する設計となっている。

リアルタイムでの連続音声生成により、会話が自然に流れるテンポで翻訳が進行する。従来の翻訳ツールにある「一文区切り」の不自然さが軽減される。

提供プラットフォーム

段階的なロールアウトスケジュール:

  • Google AI Studio・Gemini Live API — 開発者向けプレビュー(即日利用可能)
  • Google Meet — エンタープライズ向け非公開プレビュー(6月中の限定展開)
  • Google Translate アプリ — Android・iOS(6月中のグローバルロールアウト予定)

エンタープライズ向けから順次利用可能になり、一般向けは Google Translate アプリ経由での提供となる見通しだ。

生成音声の真正性担保——SynthID 導入

生成音声がどのツールで作られたかを検出可能にするため、Google は SynthID 透かし技術を実装している。AI 生成音声に対する信頼性の問題(ディープフェイク懸念など)に事前に対応する姿勢を示している。

業界への意味

リアルタイム音声翻訳は、多言語会議・遠隔教育・グローバルカスタマーサポート など多くの業界で実用化が期待されていた領域だ。Google がこれを「主流プロダクト」(Google Meet・Google Translate)に組み込むことで、AI 音声翻訳の利用が劇的に加速する見通しが高い。

同時に、開発者向けの API 提供により、サードパーティアプリケーションでの統合も容易になる。グローバル化が進むビジネス環境では、言語の壁を低減するこの技術が競争力の要因になる可能性がある。