ドバイ発Camb AI、音声クローニングの新境地「Mars5」を発表、140言語対応でリアリズム追求

ドバイ発Camb AI、音声クローニングの新境地「Mars5」を発表、140言語対応でリアリズム追求 - innovaTopia - (イノベトピア)

Last Updated on 2024-06-12 07:04 by admin

ドバイに拠点を置くCamb AIは、AI駆動のコンテンツローカライゼーション技術を研究するスタートアップで、Mars5という強力なAIモデルを発表した。このモデルは、音声クローニングに特化しており、ElevenLabsなどの既存モデルと比較して、より高いリアリズムを実現すると主張している。Mars5は、オリジナルの声だけでなく、リズム、感情、イントネーションなどの複雑な音韻パラメータも模倣する。Cambは、ElevenLabsの36言語に対して、140以上の言語をサポートし、アイスランド語やスワヒリ語などのリソースが少ない言語も含まれる。しかし、GitHubで今日からアクセス可能なオープンソース技術は英語特化バージョンのみで、拡張言語サポートバージョンは同社の有料Studioで利用可能である。

Mars5は、数秒から1分のオーディオファイルをアップロードし、テキスト内容を提供するだけで、そのオーディオファイル内の話者の声を参照にして、関連する詳細を捉え、提供されたテキストをその声で合成音声として合成する。このモデルは、フラストレーション、指示的、落ち着いた、活気のあるなど、さまざまな感情のトーンとピッチを捉えることができる。これにより、スポーツ解説、映画、アニメなど、従来音声に変換するのが難しかったコンテンツに適している。

Mars5は、約750Mパラメータの自己回帰モデルと、約450Mパラメータの新しい非自己回帰多項式拡散モデルを組み合わせている。この技術は、音声クローニングとテキストから音声への変換の両方の機能を統合したプラットフォームとして機能する。

Camb AIは、音声クローニングとテキストから音声への変換の性能を向上させるとともに、Boliという別のモデルのオープンソースリリースも計画している。Boliは、文脈理解、正しい文法、適切な口語表現を可能にする翻訳モデルで、Google TranslateやDeepLなどの従来のエンジンを超えるとされる。現在、Mars5とBoliは、Cambの独自プラットフォームCamb Studioで140言語に対応しており、APIとして企業、中小企業、開発者に提供されている。Camb AIは、Major League Soccer、Tennis Australia、Maple Leaf Sports & Entertainment、主要な映画・音楽スタジオ、複数の政府機関と協力している。

【ニュース解説】

ドバイに拠点を置くスタートアップ企業、Camb AIが開発した「Mars5」というAIモデルは、音声クローニング技術において、従来のモデルを大きく進化させたものです。この技術は、オリジナルの声だけでなく、その声のリズム、感情、イントネーションといった複雑な音韻パラメータを模倣することができます。これにより、生成される音声は非常にリアルで、従来のテキストから音声への変換技術や他の音声クローニング技術と比較して、より高いレベルの自然さを実現しています。

Mars5の特徴の一つは、ElevenLabsなどの競合他社がサポートする36言語に対して、140以上の言語をサポートしている点です。これには、アイスランド語やスワヒリ語などのリソースが少ない言語も含まれており、多言語対応の幅が広がっています。ただし、GitHubで公開されているのは英語特化バージョンであり、拡張言語サポートは有料のStudioで提供されています。

この技術は、数秒から1分のオーディオファイルをアップロードし、テキスト内容を提供するだけで、そのオーディオファイル内の話者の声を基にして、提供されたテキストを合成音声として生成します。このプロセスにより、フラストレーション、指示的、落ち着いた、活気のあるなど、さまざまな感情のトーンとピッチを捉えることが可能になり、スポーツ解説、映画、アニメなど、従来音声に変換するのが難しかったコンテンツにも適用できます。

技術的な側面では、Mars5は約750Mパラメータの自己回帰モデルと、約450Mパラメータの新しい非自己回帰多項式拡散モデルを組み合わせています。この組み合わせにより、音声クローニングとテキストから音声への変換の両方の機能を統合したプラットフォームが実現されています。

Camb AIは、音声クローニングとテキストから音声への変換の性能を向上させるだけでなく、「Boli」という別のモデルの開発も進めています。Boliは、文脈理解、正しい文法、適切な口語表現を可能にする翻訳モデルで、Google TranslateやDeepLを超える性能を持つとされています。これにより、より自然で正確な翻訳が可能になります。

この技術のポジティブな側面としては、多言語対応によるグローバルなコミュニケーションの促進、リアルな音声合成によるコンテンツ制作の質の向上などが挙げられます。一方で、潜在的なリスクとしては、音声クローニング技術が不正な目的で使用される可能性があります。例えば、公人の声を無断でクローニングし、虚偽の情報を拡散するなどの悪用が考えられます。このため、技術の使用にあたっては、倫理的なガイドラインの策定や法的な規制が重要になってきます。

将来的には、この技術の進化により、より自然で多様な音声コンテンツの生成が可能になるとともに、言語の壁を越えたコミュニケーションがさらに容易になることが期待されます。また、教育、エンターテイメント、ビジネスなど、さまざまな分野での応用が拡大していくことでしょう。しかし、その一方で、技術の進化に伴う倫理的、法的な課題に対処するための取り組みも同時に進める必要があります。

from Exclusive: Camb takes on ElevenLabs with open voice cloning AI model Mars5 offering higher realism, support for 140 languages.

ホーム » AI(人工知能) » AI(人工知能)ニュース » ドバイ発Camb AI、音声クローニングの新境地「Mars5」を発表、140言語対応でリアリズム追求