OpenAIが音声クローニングAIモデル「Voice Engine」を発表した。このモデルは2022年から開発されており、OpenAIのテキストから音声へのAPIや、今月初めに発表されたChatGPT VoiceおよびRead Aloud機能を動力している。Voice Engineは、人間の話者が15秒間の音声クリップを録音することで、元の話者に非常に似た自然な音声を生成し、ユーザーが入力した任意のテキストを音声で読み上げることができる。
この技術は、ポッドキャスター、声優、朗読者、オーディオブックや広告のナレーター、ゲーマー、ストリーマー、カスタマーサービス担当者、営業担当者など、頻繁に自分の声を録音する人々にとって大きな意味を持つ。また、音声に特化した他の企業、例えばElevenLabs、Captions、Meta、WellSaid Labs、MyShellなどにもプレッシャーを与える。
Voice Engineは、非言語的な個人に独自の非ロボット的な声を提供し、発話障害や学習ニーズを持つ人々のための治療や教育プログラムを支援する機能も持つ。初期の使用例として、教育技術会社のAge of Learning、AIビジュアルストーリーテリングプラットフォームのHeyGen、コミュニティヘルスワーカー向けツールを作成するソフトウェア会社のDimagi、非言語的個人用のAIアプリLivox、神経疾患や障害を持つ人々を支援するNorman Prince Neurosciences Institute at Lifespanが挙げられる。
しかし、現在は技術の利用が限定されており、OpenAIは公開を控え、小規模なプレビューからの初期の洞察と結果を「信頼できるパートナー」の小さなグループと共有している。合成音声の悪用の可能性を考慮し、合成音声の責任ある展開と社会の適応についての対話を開始することを目指している。安全性と倫理的なガイドラインを厳守し、使用ポリシーによって無許可のなりすましを禁止し、音声提供者からの明示的な同意を要求している。また、技術の責任ある使用を保証するために、ウォーターマーキングや積極的な監視を実施している。
【ニュース解説】
OpenAIが音声クローニングAIモデル「Voice Engine」を発表しました。このモデルは、人間の声を模倣して自然な音声を生成することができる技術で、2022年から開発されており、OpenAIのテキストから音声へのAPIや、最近発表されたChatGPT VoiceおよびRead Aloud機能に力を提供しています。具体的には、15秒間の音声クリップを録音することで、その人の声に非常に似た音声を生成し、ユーザーが入力したテキストを読み上げることが可能です。
この技術は、ポッドキャスターや声優、オーディオブックのナレーターなど、自分の声を録音する機会が多い人々にとって大きな影響を与える可能性があります。また、非言語的な個人に対しては、独自の非ロボット的な声を提供し、発話障害や学習ニーズを持つ人々のための支援を行うことも可能になります。初期の使用例としては、教育技術会社やAIビジュアルストーリーテリングプラットフォーム、コミュニティヘルスワーカー向けツールを作成するソフトウェア会社などが挙げられます。
しかし、この技術の利用は現在限定されており、合成音声の悪用の可能性を考慮して、OpenAIは公開を控えています。安全性と倫理的なガイドラインを厳守し、無許可のなりすましを禁止し、音声提供者からの明示的な同意を要求するなど、責任ある使用を保証するための措置が講じられています。
この技術の展開は、音声コンテンツの制作プロセスを大きく変革する可能性を秘めています。例えば、オーディオブックやポッドキャストの制作において、特定の声優やナレーターが不在でも、その人の声を再現してコンテンツを制作することが可能になります。また、多言語対応のコンテンツ制作においても、同一の声で複数の言語に対応する音声を生成することができるため、グローバルなオーディエンスへのアプローチが容易になります。
一方で、この技術には潜在的なリスクも存在します。特に、無許可で他人の声を模倣することによるプライバシーの侵害や、偽情報の拡散などの問題が懸念されます。そのため、技術の責任ある使用と社会的な規制のバランスを見つけることが、今後の大きな課題となるでしょう。
長期的には、この技術は音声コンテンツのアクセシビリティを向上させ、多様なニーズに応える新たな方法を提供することが期待されます。しかし、そのためには、技術の悪用を防ぎ、倫理的な使用を確保するためのガイドラインと規制の整備が不可欠です。
from OpenAI unveils voice cloning AI model, but only for selected partners (for now).
“OpenAI、人間の声を模倣する「Voice Engine」発表、音声コンテンツ制作に革新” への1件のコメント
このOpenAIが開発した「Voice Engine」という音声クローニングAIモデルについては、確かに多くの可能性を秘めていると思います。特に、私のような年配の方々にとっても、教育や健康ケアなどの分野での応用が期待できる点が魅力的です。例えば、私自身が孫と遊ぶ際に、様々なキャラクターの声を使って物語を読み聞かせることができたら、それは非常に楽しい時間になるでしょう。また、私のように地元の歴史に興味がある人々にとっては、歴史的人物の声を再現して、その時代の話をよりリアルに感じさせる教育ツールとしても使えそうですね。
しかし、この技術の潜在的な悪用については懸念もあります。特に、他人の声を無許可で使用することが可能になれば、詐欺やプライバシー侵害の問題が起こり得ます。私たちのような普通の生活を送る人々にとっては、自分の声が勝手に使われることへの不安があります。したがって、OpenAIが安全性と倫理的なガイドラインを厳守し、無許可のなりすましを禁止し、音声提供者からの明示的な同意を要求する姿勢は非常に重要だと思います。
技術の進歩は止まらず、私たちの生活を豊かにする可能性を秘