Shoji Times

#2026-05-02
20 sources → 14 news printed at 2026/05/04
ai
xAI、1分間の発話で音声クローンを生成する Custom Voices を提供開始

xAI、1分間の発話で音声クローンを生成する Custom Voices を提供開始

コンシューマー向け音声 AI の差別化要因が「個人音声の即時複製」に移り、ボイスタレントの相場と契約形態が再編される

xAI、1分間の発話で音声クローンを生成する Custom Voices を提供開始


何が変わったか

これまで音声クローン作成は ElevenLabs などの専門サービスとの個別契約が前提で、API (Application Programming Interface, ソフトウェア間の接続規約) への組み込みには別料金や別ワークフローが必要だった。

xAI が公開した Custom Voices によって、1分間の自然な発話を録音するだけで、約2分以内に Grok の Text-to-Speech および Voice Agent API でそのまま使える音声クローンが生成される。クローン費用は無料で、API の標準レート (TTS は 100万文字あたり 4.20 ドル、Voice Agent は1分あたり 0.05 ドル) のみで利用できる。Voice Library には 28 言語にわたる 80 種類以上のプリインストール音声も並ぶ。

社会にどんな影響があるか

主たる影響として、コンシューマー向け音声 AI の差別化要因が「個人音声の即時複製」に移る。コールセンター、オーディオブック、ゲーム NPC、社内ナレーション動画などの制作コストが急速に下がり、ボイスタレントの相場と契約形態が再編される。

一方で副作用として、本人検証はあるものの音声詐欺・なりすまし・偽動画の生成基盤としても利用可能になる。xAI は2段階検証 (本人による検証フレーズ読み上げと話者埋め込みの照合) を必須化しているが、検証済みクローンが流出した場合の悪用シナリオは規制側が追いついていない。

ニュースの詳細

Custom Voices は xAI のコンソール上で動作する。ユーザーが約1分間の自然発話を録音すると、パイプラインが所有権を検証し、本人による検証フレーズの読み上げと話者埋め込みの照合の2段階を経て、約2分以内にプロダクション利用可能な音声モデルを生成する。

クローンは音色だけでなく話者の発話パターンや抑揚も再現するとされる。Voice Library 機能でチームは保有する全音声をブラウズ・プレビュー・管理でき、80 種類以上のプリインストール音声と組み合わせて利用できる。xAI はクローン機能自体には課金せず、API 標準レート (TTS で 100万文字 4.20 ドル、Voice Agent で1分 0.05 ドル) のみで提供する価格戦略を取った。想定ユースケースは音声エージェント、オーディオブックのナレーション、ビデオゲームのキャラクターボイスとされる。

source: xAI公式 , The Decoder