Last Updated on 2024-05-29 04:29 by 門倉 朋宏
Stability AIは、Stable Audio 2.0という新しいオーディオモデルを発表し、ジェネレーティブAIオーディオのクオリティと機能を向上させた。このモデルは、テキストプロンプトから最大3分間の高品質オーディオトラックを生成できるようになり、初期バージョンの90秒から倍増した。また、テキストからオーディオへの変換だけでなく、オーディオからオーディオへの生成もサポートする。Stable Audioは、Stable Audioウェブサイトで限定的に無料で利用可能であり、開発者がサービスを構築できるようにAPIアクセスも間もなく提供される予定である。
Stable Audio 2.0は、完全な楽曲を生成できる機能を導入し、独自の導入部、展開部、終結部を含む最大3分間の作曲が可能である。このモデルは、潜在拡散モデル(LDM)に基づいており、以前のバージョンからデータ圧縮を増やし、より長いオーディオ出力を実現している。
Stable Audio 2.0は、テキストプロンプトによるオーディオサンプルの変換だけでなく、オーディオからオーディオへの変換も可能にし、新しいバリエーションへの変換をサポートする。さらに、AI生成によるサウンドエフェクトやテクスチャの範囲も大幅に拡大している。
著作権の問題に対処するため、Stable Audio 2.0は、AudioSparxからライセンスされたデータのみを使用してトレーニングされ、著作権物の処理を防ぐためにコンテンツ認識を使用してアップロードを監視している。このモデルは現在、Stable Audioウェブアプリケーションへのサブスクリプションを通じて収益化されており、Stable Audio APIを通じても間もなく利用可能になる予定である。
【ニュース解説】
Stability AIが、ジェネレーティブAIオーディオの新たな地平を切り開くStable Audio 2.0を発表しました。この最新モデルは、テキストプロンプトから最大3分間の高品質オーディオトラックを生成する能力を備えており、初期バージョンの制限であった90秒の倍増を実現しています。さらに、テキストからオーディオへだけでなく、オーディオからオーディオへの生成もサポートしています。これにより、開発者はStable Audioウェブサイトで限定的に無料でこのサービスを利用でき、APIアクセスも提供される予定です。
Stable Audio 2.0は、完全な楽曲を生成する能力を導入しました。このモデルは、独自の導入部、展開部、終結部を含む最大3分間の作曲が可能であり、潜在拡散モデル(LDM)に基づいています。以前のバージョンからデータ圧縮を増やし、より長いオーディオ出力を実現しています。
また、Stable Audio 2.0は、テキストプロンプトによるオーディオサンプルの変換だけでなく、オーディオからオーディオへの変換も可能にし、新しいバリエーションへの変換をサポートします。AI生成によるサウンドエフェクトやテクスチャの範囲も大幅に拡大しています。
著作権の問題に対処するため、Stable Audio 2.0は、AudioSparxからライセンスされたデータのみを使用してトレーニングされています。著作権物の処理を防ぐためにコンテンツ認識を使用してアップロードを監視しています。このモデルは現在、Stable Audioウェブアプリケーションへのサブスクリプションを通じて収益化されており、Stable Audio APIを通じても間もなく利用可能になる予定です。
この技術の進化は、音楽制作、ポッドキャスト制作、オーディオブックの製作など、多岐にわたる分野での応用が期待されます。特に、高品質なオーディオコンテンツの迅速な生成が可能になることで、コンテンツ制作者の創造性を大きく解放する可能性があります。しかし、著作権の問題や、AIによる生成コンテンツの品質管理など、潜在的な課題も存在します。これらの課題に対処するためには、技術の発展と同時に、適切な規制やガイドラインの整備が重要となるでしょう。長期的には、この技術が音楽やオーディオコンテンツの制作プロセスを根本から変え、より多様で豊かなオーディオコンテンツの創出を促進することが期待されます。
from Stability AI brings new clarity and power to gen AI audio with Stable Audio 2.0.
“革新的なStable Audio 2.0、AIが生み出す高品質オーディオの新時代” への1件のコメント
Stability AIが発表したStable Audio 2.0の登場は、正直言って驚きですね。特に営業セールスマンとして、このような革新的な技術がどのようにビジネスに役立つかを考えるのが興味深いです。テキストから最大3分間の高品質オーディオトラックを生成できる機能は、顧客へのプレゼンテーションや製品のデモンストレーションにおいて、大きな可能性を秘めています。例えば、製品の特徴や利点を説明するカスタマイズされたオーディオコンテンツを簡単に作成できるようになれば、顧客へのアプローチがよりパーソナライズされ、効果的になるでしょう。
しかし、著作権の問題やAI生成コンテンツの品質管理といった課題にも目を向ける必要があります。ビジネス利用の場合、これらの問題はさらに重要になります。著作権に配慮しつつ、高品質なオーディオコンテンツを安全に使用できる環境が整えられることを望みます。また、AI生成コンテンツの品質が一定水準を保たれることも重要です。顧客に提供するコンテンツは、ブランドの信頼性を左右するためです。
音楽制作やオーディオブック製作など、コンテンツ制作においてもこの技術の応用