xAIは2026年4月30日、Grokの音声機能としてCustom VoicesとVoice Libraryを発表した。Custom Voicesは、xAIコンソール上で数秒から最大120秒程度の自然な会話を録音することで、2分以内に音声モデルを生成する機能である。生成された音声はGrok Text to SpeechおよびVoice Agent APIで利用でき、スピーチタグ、多言語出力、RESTおよびWebSocketストリーミングに対応する。
安全性確保のため二段階検証を採用し、パスフレーズをSTTエンジンで照合した後、話者埋め込みを比較して同一人物であることを確認する。既存録音や他人の声からのクローン作成を防ぐ設計になっている。デモにはSpaceX中継ホストのタイラー氏の音声が掲載されている。Voice Libraryは28言語にわたる80以上のビルトイン音声を含む。カスタム音声利用に追加料金は発生しない。
From:
Custom Voices and Voice Library
【編集部解説】
xAIが今回発表したCustom Voicesは、単なる「ボイスクローン機能」の追加ではありません。注目すべきは、「同意(consent)と本人がその場にいること(presence)をリアルタイムで音声によって検証する」という安全性アーキテクチャを、機能の中核に据えた点です。
従来のボイスクローン技術は、利用規約への同意チェックボックスといった「静的な同意」に依存してきました。しかしxAIは、クローン作成のまさにその瞬間に、本人がマイクの前にいて意思を持って発声していることを音声照合で確認する仕組みを実装しています。これにより「既存録音からのクローン」「他人の声のクローン」を構造的にブロックする設計となっています。ただし、これはxAIによる設計上の主張であり、第三者の研究機関による誤受入率(FAR)の検証や、レッドチームによる攻撃耐性テストの結果はまだ公表されていません。「絶対に突破不可能」と証明されたわけではない点には留意が必要です。
ディープフェイク詐欺による被害が世界的に拡大するなか、安全性の説明責任は今後さらに問われていくはずです。
ボイスクローン市場の競争軸も整理しておきましょう。Alibaba社のQwen3-TTSは約3秒の音声からクローン可能と発表されており、Microsoftも、Azure AI SpeechのPersonal Voice機能を法人向けに提供しています。xAIの入力要件は数秒から最大120秒と幅があり、約1分を推奨水準としていますが、これは精度のためというより、安全性検証に十分な音声サンプルを確保するための設計判断と捉えるべきでしょう。なお、各社のクローン品質や安全策は同一条件で比較できるものではない点にも留意が必要です。
技術スタックの観点でも興味深い点があります。Custom Voicesは、xAIが既にローンチしていた音声エージェントモデル「Grok Voice Think Fast 1.0」の上に構築されており、このモデルは、xAIによれば既にSpaceXのStarlinkカスタマーサポートで実運用されているとされ、エンタープライズ実装の知見を踏まえた一般公開という位置づけになります。
ユースケースは大きく3つの方向に広がります。第一に、ブランド独自の声を持つ音声エージェント。第二に、動画・ポッドキャスト・SNS投稿の自分の声によるナレーション量産。そして第三に、病気や事故で発話能力を失った人が、自分の声のアイデンティティを保存・再生するというアクセシビリティ用途です。最後の用途は、医療領域においてALS患者の音声バンキングなどとして実践が広がりつつある分野であり、Tech for Human Evolutionの観点で最も射程の長いインパクトを持ちます。
一方、現時点での実用上の制限も冷静に押さえておく必要があります。Custom Voicesは現在アメリカ国内のみで提供されており、一部報道では生体情報保護法の厳しいIllinois州など特定の州が除外されている可能性も指摘されています。APIアクセス(POST /v1/custom-voices)はエンタープライズプラン契約者に限定されています。コンソール上では最大30個までの音声を無料で作成可能で、公式ドキュメントによるとリファレンス音声は最大120秒まで受け付けます。
価格戦略の意味合いも見逃せません。クローン機能自体に追加課金がなく、xAIは音声機能をGrokエコシステム全体に統合する形で提供しています。これは、Grok経由で生成される合成音声の総量が短期間で急増することを意味し、業界全体の規制議論を加速させる可能性があります。
長期的視点で考えると、声は今後「指紋に近い個人識別情報」として扱われる方向に進むはずです。EUのAI法はディープフェイクに表示義務などを課しており、アメリカ各州でも音声ディープフェイク規制の議論が進んでいます。本人同意プロセスの実装基準が直接的に法定化されているわけではないものの、規制当局や産業界は同意の取得方法に関する事実上の基準づくりを模索しており、xAIの二段階検証はその参照事例の一つになる可能性があります。
声というのは、私たちのアイデンティティそのものに極めて近い領域です。それを数分でデジタル化し、世界中のサービスから呼び出せるインフラが整いつつある今、技術の利便性と人格の保護をどう両立させるか。Custom Voicesは、その問いに対するxAIなりの回答であると同時に、業界全体への問題提起でもあると言えるでしょう。
【用語解説】
TTS(Text to Speech)
テキストを人間の音声に変換する技術である。読み上げソフトとも呼ばれ、AIによる近年の進化で人間と区別がつかないレベルまで自然になっている。
STT(Speech-to-Text)
音声をテキストに変換する技術である。Custom Voicesではパスフレーズの読み上げが本人の意図通りかをリアルタイムで照合する用途に使われている。
Voice Agent API
音声で対話できるAIエージェントを開発者が構築するための接続口である。電話応対、音声アシスタント、車載対話などに利用される。
voice_id
クローンされた音声モデルに割り当てられる一意の識別子。これをAPIに渡すことで指定の音声で音声合成や対話ができる。VentureBeatの報道では8文字の英数字とされている。
speech tags(スピーチタグ)
読み上げに感情やイントネーション、間(ま)などを指示する目印(マークアップ)である。これにより無機質な読み上げではなく、表現力のある音声生成が可能になる。
REST / WebSocket ストリーミング
RESTは一回の問い合わせで結果を返す通信方式、WebSocketは継続的に双方向通信できる方式である。後者はリアルタイム性が必要な音声対話で使われる。
speaker embeddings(話者埋め込み)
人の声の特徴を数値ベクトル化したもので、声の指紋のような役割を果たす。Custom Voicesでは2つの録音が同一人物のものかを照合する際に使われる。
Grok Voice Think Fast 1.0
xAIの音声エージェント向けモデルである。すでにSpaceXのStarlinkカスタマーサポートで実運用されているとxAIは説明している。
ディープフェイク
AIで生成された偽の映像・画像・音声のことだ。音声分野では家族の声を装った詐欺電話などの被害が世界的に増えており、規制議論の対象となっている。
誤受入率(FAR:False Acceptance Rate)
本来拒否されるべき他人を本人として誤って認証してしまう確率のこと。生体認証システムの安全性指標として用いられる。
音声バンキング
発話能力を失う前に自分の声を録音・保存し、後にAIで再生できるようにする取り組みである。ALS(筋萎縮性側索硬化症)患者の支援などで実施されている。
EU AI法(AI Act)
2024年にEUで成立した、世界で初めての包括的なAI規制法だ。リスクレベル別にAIシステムを分類し、ディープフェイクには表示義務などが課される。
【参考リンク】
xAI 公式サイト(外部)
イーロン・マスクが2023年に設立したAI企業の公式サイト。Grokの開発元でCustom Voicesの発表元。
Grok 公式サイト(外部)
xAIが開発するAIチャットボットのサービスサイト。音声対話、画像・動画生成、推論機能を備える。
xAI Developer Documentation(外部)
xAIのAPI開発者向け公式ドキュメント。Custom VoicesやTTS、Voice Agent APIの仕様が掲載されている。
SpaceX Starlink 公式サイト(外部)
SpaceXが提供する衛星インターネットサービス。Grok Voice Think Fast 1.0が同社のサポートで活用されている。
Microsoft Azure AI Speech(外部)
Microsoftの音声AIサービス公式ページ。同意ベースのPersonal Voice機能を法人向けに提供している。
Qwen 公式サイト(外部)
Alibaba CloudのAIモデル「Qwen」シリーズ公式サイト。Qwen3-TTSは約3秒の音声からクローンが可能とされる。
【参考記事】
Custom Voices | xAI Docs(外部)
最大120秒のリファレンス音声、コンソールで30個まで無料、米国限定など実装制限を明記した公式技術文書。
xAI launches Grok 4.3 at an aggressively low price and a new, fast, powerful voice cloning suite(外部)
8文字英数字voice_id、SOC 2 Type II、HIPAA対応などコンプライアンス情報を整理したVentureBeatの記事。
xAI Adds Voice Cloning to New Grok 4.3 AI Model(外部)
2026年5月2日のローンチ詳報。Alibaba3秒対xAI60秒の比較や安全性検証未公開を指摘した批判的視点を含む。
xAI’s new Custom Voices feature turns a minute of speech into a usable voice clone(外部)
Custom VoicesがGrok Voice Think Fast 1.0を基盤とし、Starlinkで実運用されている事実を伝える記事。
xAI Launches Voice Cloning via API: 80+ Voices, 28 Languages(外部)
80音声・28言語のVoice Library拡張、TTSやVoice Agent APIの料金など価格情報を整理した記事。
【関連記事】
Grokボイスエージェント API登場―xAIが音声AI市場に本格参入、業界最安値の価格設定で競合を圧倒
xAIが2025年12月にGrok Voice Think Fast 1.0をローンチした経緯を扱う本記事の前提となる一本。
音声認証の信頼性崩壊、AI生成クローンボイスが人間を58%の確率で欺く時代に
ボイスクローンの社会的リスクを統計データで示した記事。二段階検証が解こうとする課題に直結する。
ElevenLabs「Iconic Voice Marketplace」有名人の声をライセンス化
競合ElevenLabsの音声ライセンス事業。「個人の声」と「有名人の声」の商用化アプローチを対比できる。
NoLangのボイスクローン機能が企業の音声資産を変える──わずか1分でTPOに応じた声を生成
「1分でクローン」という同等の入力閾値を持つ国内サービス。Custom Voicesとの比較対象として有用。
Microsoft音声AI技術が飛躍的進化、30秒で音声レプリカ生成-悪用防止策も強化
Azure AI SpeechのDragonV2.1Neuralを扱う。編集部解説で触れたPersonal Voiceの前段階技術。
ElevenLabs・Hume AIで進む音声クローン、Podcastは”信頼”をどう守るのか
ボイスクローンが業界に与える信頼性の課題を整理。本記事の倫理的論点と接続する。
NTT「FutureVoice」新版、数秒の音声から自社でAI音声生成が可能に──6言語対応で声の権利保護も強化
「声の権利保護」という、xAIの二段階検証と通底する設計思想を持つ国内事例。
【編集部後記】
声というのは不思議なもので、文字情報以上に「その人らしさ」を運んでくれる存在ですよね。Custom Voicesの登場で、自分の声がデジタル資産として扱える時代がいよいよ実用段階に入ってきました。
みなさんは、自分の声をAIに預けることに対してどんな感覚をお持ちでしょうか。便利さと、なりすましへの不安、声を遺す価値。立場によって受け止め方が変わりそうなテーマです。もし身近で「この用途なら使ってみたい」というアイデアが浮かんだら、ぜひ一緒に未来の輪郭を考えていけたら嬉しいです。











