音声認証の信頼性崩壊、AI生成クローンボイスが人間を58%の確率で欺く時代に

音声認証の信頼性崩壊、AI生成クローンボイスが人間を58%の確率で欺く時代に - innovaTopia - (イノベトピア)

ロンドン大学クイーン・メアリー校とユニバーシティ・カレッジ・ロンドンの研究者チームは、人間がAI生成音声と本物の人間の声を区別できなくなったとする研究結果を2025年9月にPLOS One誌で発表した。心理学者ナディーン・ラヴァン率いるチームは80個のオーディオサンプルを用意し、半数を人間、半数を合成音声とした。完全合成AI音声は41パーセントが人間と誤認されたが、数分の録音から作成されたクローン音声は58パーセントがリスナーを騙した。被験者が本物の声を正しく識別できたのは62パーセントのみで、両者に有意な差はなかった。研究チームはElevenLabsの市販ソフトウェアと5分未満の音声サンプルで各合成音声を作成した。Consumer Reportsの調査では、6つの音声クローンプロバイダーのうち4つがなりすまし防止策としてチェックボックス形式の自己証明しか提供していないことが判明している。

From: 文献リンクHumans flunk the Turing test for voices as bots get chattier

【編集部解説】

この研究結果が示すのは、音声認証という概念そのものが深刻な課題に直面しているという事実です。ElevenLabsが提供する比較的簡易なクローン機能を用い、わずか5分未満の音声サンプルから作成されたクローン音声を、人間が58%の確率で本物と誤認するということは、統計的にはコイン投げとほぼ変わらない精度で見分けられないことを意味します。

注目すべきは、完全合成音声よりも実在の人物からクローンされた音声の方が圧倒的に人間を欺く能力が高いという点でしょう。41パーセントと58パーセントという数字の差は、AI が単に「人間らしい声」を作るのではなく、「特定の人物の声」を忠実に再現する段階に到達したことを意味しています。

さらに興味深いのは、一部のクローン音声が本物の人間の声よりも「信頼できる」「支配的である」と評価された点です。これは技術的な完成度だけでなく、人間の認知バイアスが関わっている可能性を示唆します。

ElevenLabsのような市販ソフトウェアで誰でも簡単に音声クローンを作成できる現状は、アクセシビリティ向上という光の面と、詐欺や情報操作という影の面を同時に持っています。実際、親族を装った電話詐欺での悪用事例は既に報告されています。

Consumer Reportsの調査が明らかにした「チェックボックスだけの本人確認」という脆弱な防止策が多くのサービスで採用されている一方で、ElevenLabsのような主要プロバイダーはなりすまし防止のために独自の音声認証(Voice Captcha)を導入するなど、対策も始まっています。しかし、その有効性を含め、技術の進化速度に社会的な仕組みが追いついていないのが現状です。

今後、銀行の音声認証システムや企業のセキュリティプロトコルは、単なる声紋照合から多要素認証への移行を加速させることが不可欠です。「声を聞けば本人だと分かる」という人類が長年信頼してきた直感が、もはや通用しない時代に突入したのです。

【用語解説】

PLOS One
科学分野のオープンアクセスジャーナル。査読を経た研究論文を無料で公開しており、生物学、医学、心理学など幅広い分野をカバーする。Public Library of Scienceが発行している。

チューリングテスト
イギリスの数学者アラン・チューリングが1950年に提唱した、機械が人間と同等の知能を持つかを判定するテスト。人間が機械と対話して、相手が人間か機械かを判別できなければ、その機械は知能を持つとみなされる。

音声クローン
実在の人物の声を録音し、AIがその特徴を学習して同じような声を生成する技術。数分から数十秒の音声サンプルがあれば、任意のテキストをその人物の声で読み上げさせることが可能になる。

ディープフェイク
AIを用いて作成された偽の音声や映像コンテンツ。実在の人物が実際には言っていない発言や行っていない行動を、本物そっくりに再現できる。

テキスト読み上げ(Text-to-Speech)
テキストデータを音声に変換する技術。従来は機械的な音声だったが、AI技術の進化により自然な人間の声に近い音声を生成できるようになった。

【参考リンク】

ElevenLabs公式サイト(外部)
AI音声合成とテキスト読み上げ技術を提供する企業の公式サイト。音声クローン機能やリアルタイム音声生成ツールを提供している。

PLOS One(外部)
オープンアクセスの科学ジャーナル。今回の音声クローン研究を含む、査読済みの多様な科学研究論文を無料で公開している。

Queen Mary University of London(外部)
ロンドン大学を構成する研究機関の一つ。今回の音声クローン検出研究を主導した大学。心理学、工学、医学など幅広い分野で研究を行っている。

University College London (UCL)(外部)
ロンドンに拠点を置く世界有数の研究大学。Queen Mary大学と共同で今回の音声クローン研究を実施した。

Microsoft Azure AI Speech(外部)
Microsoftが提供するクラウドベースの音声認識・合成サービス。わずか数秒の音声から音声クローンを作成できる機能を持つ。

OpenAI(外部)
ChatGPTの開発元として知られるAI研究企業。15秒の音声サンプルから音声クローンを作成できる技術を開発している。

【参考記事】

AI-generated voices now indistinguishable from real voices, new study finds(外部)
Queen Mary大学とUCLの研究者による最新研究のプレスリリース。クローン音声が58パーセントの確率で人間を騙すことに成功したデータを公開。

Voice clones sound realistic but not (yet) hyperrealistic(外部)
PLOS Oneに掲載された本研究の原著論文。ナディーン・ラヴァン率いる研究チームによる詳細なデータと分析が含まれる。

‘Voice clones can sound as real as human voices,’ says new research(外部)
生体認証技術の観点から本研究を分析した記事。音声認証システムへの影響と、セキュリティ業界が直面する課題について考察。

AI voice clones ‘indistinguishable’ from human speech, tests show(外部)
本研究の実用的な影響について報じた記事。電話詐欺での悪用事例とConsumer Reportsによるセキュリティ対策調査の結果を紹介。

AI now sounds more like us – should we be concerned?(外部)
音声クローン技術の社会的影響を多角的に分析した記事。詐欺被害の増加、規制の必要性、アクセシビリティ向上という両面性について報じる。

【編集部後記】

音声だけで本人を見分けられる時代が終わりつつあることに、正直驚かれたのではないでしょうか。電話口の声が家族や友人のものだと信じていた感覚が、もう通用しないかもしれません。

銀行口座や重要なサービスで音声認証を使っている方は、多要素認証への切り替えを検討する時期に来ています。また、知らない番号からの「緊急の相談」という電話には、たとえ声が似ていても、一度立ち止まって確認する習慣を持つことが大切です。私たちの「声」という最も個人的なアイデンティティが、技術によって複製可能になった今、どう自分を守るべきか、一緒に考えていきませんか。

投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!

読み込み中…
advertisements
読み込み中…