Google Gemini 3.1 Flash TTS、70言語以上対応の新音声合成モデルをリリース
Google は Gemini 3.1 Flash TTS を発表。70言語以上でより自然で表現力豊かな音声生成が可能。新しいオーディオタグで話速、トーン、スタイルなど細かく制御できる。
Google は AI ベースのテキスト音声合成技術を大幅に進化させた。Gemini 3.1 Flash TTS は、70言語以上で高い表現力を備えた音声生成を実現する。新たなオーディオタグシステムにより、生成される音声のスタイル、速度、トーンを細かく制御できるようになった。
表現力と多言語対応を強化
Gemini 3.1 Flash TTS は、従来のテキスト音声合成技術の限界を超える。まず、対応言語の数が圧倒的に多い。70言語以上をサポートし、各言語での音声品質を均等に維持する技術的課題をクリアしている。
また、音声の表現力が大幅に向上。自然な抑揚、感情的なニュアンス、方言や地域特性を反映した発音が可能になっている。従来は単調だった AI 音声が、より人間らしく聞こえるようになる。
細かい制御で用途の幅を広げる
新しいオーディオタグシステムは、開発者や企業に詳細なカスタマイズ機能を提供する。話速(速度)、ピッチ(音高)、トーン、強調など、様々なパラメータをテキスト内で指定できる。
例えば、重要な部分をゆっくり強調したり、自然な会話スピードで親しみやすく聞かせたりすることが容易になる。コンテンツの用途に応じた最適な音声を生成できるため、e-ラーニング、カスタマーサポート、多言語コンテンツ配信など、幅広い応用が見込める。
グローバル展開の加速
70言語以上対応という仕様は、Google のグローバル戦略を象徴している。言語の壁がより低くなることで、地域を限定しない AI サービス展開が可能になる。音声品質の統一は、ユーザー体験の向上に直結し、非英語圏でのサービス採用を加速させるだろう。