xAI は新しい「Custom Voices(カスタムボイス)」機能を発表しました。ユーザーが約1分間の音声を記録するだけで、AI が個人専用のボイスクローンを生成。それを自社の音声 API やボイスエージェント機能で利用できます。

Custom Voices の仕組み

この機能は Speech-to-Text、Text-to-Speech API に統合されるもので、ユーザーは xAI コンソール経由で自然音声を記録します。最短で 2 分以内に音声モデルが準備完了となり、すぐに利用開始が可能です。

現在、xAI は 28 言語対応の 80 以上のプリセット音声を用意しています。クローン音声を使用するための追加費用は発生しません。

セキュリティと詐称防止

xAI は 2 段階認証プロセスを実装しています。まずユーザーが「パスフレーズを読み上げ」、リアルタイムで確認を受けます。その後、システムが 2 つの録音を比較して、同一人物であることを検証します。xAI 側の説明によれば、既存の録音や他人の声をクローンすることは不可能な設計とのことです。

戦略的背景——API エコシステムの拡大

Custom Voices は、先月リリースの Grok 4.3(大幅な値下げと改良)と並行する戦略の一環です。xAI は Grok Speech-to-Text・Text-to-Speech API に続いて、音声機能を段階的に拡張。開発者が自社アプリケーションに組み込める API 層を強化し、Grok エコシステムへの依存度を高める狙いがあります。

この展開は、OpenAI や Anthropic が提供する音声機能への直接的な対抗手段でもあります。特に低価格化を武器に、スタートアップやインディデベロッパーの取り込みを加速させる戦略が透けて見えます。