ーTech for Human Evolutionー

音響デザイン革新！Stability AIが「Stable Audio Open 1.0」発表

AI（人工知能）ニュース

Headline News

admin

[公開]

2024年6月6日9:11

[更新]2024年6月7日

stability-ai-stable-audio-open-10 - innovaTopia

Stability AIは、音響デザイン向けの新しい「Stable Audio Open 1.0」を発表した。これは、テキストからオーディオを生成するAIツールであり、2023年9月に初めて公開された。

Stable Audio 2.0は2023年4月3日にリリースされ、生成されるオーディオの明瞭さと長さが向上した。Stable Audio Openは、完全な曲を作成することを目的としていないが、効果音などの短い音声作品に焦点を当てている。

このオープンモデルは、技術的にオープンソースではなく、Stability AIの非商業的研究コミュニティ契約ライセンスの下で利用可能である。このライセンスは、モデルへのアクセスを提供するが、利用者ができることに制限を設けている。

Stable Audio Openは、ドラムビート、楽器のリフ、環境音などの音楽制作やサウンドデザインに使用されるオーディオサンプルを生成するために最適化された特殊モデルである。商用のStable Audio製品とは異なり、最大3分間の長い音楽トラックを生成するのではなく、テキストプロンプトを使用して最大47秒間の高品質なオーディオデータを生成することに焦点を当てている。

モデルのトレーニングには、FreeSoundやFree Music Archiveからのオーディオデータが使用され、著作権や所有権のある素材が許可なく使用されないようにしている。

Stable Audio Openのリリースの主な利点の一つは、ユーザーが独自のカスタムオーディオデータでモデルを微調整できることである。例えば、ドラマーは自分のドラム録音のサンプルでモデルを微調整し、新しいユニークなビートを生成することができる。

Stable Audioの微調整は、実際のオープンソースライセンスの下でライセンスされたStable Audio Toolsライブラリを介して可能である。Stable Audio Openモデルの重みは、Hugging Faceで利用可能である。

【編集者追記】用語解説

Stability AI:
Stable Diffusionなどの生成AIモデルで知られるAI企業。オープンソースに注力している。
Stable Audio Open 1.0:
Stability AIが開発した音声生成AI。テキストから最長47秒の音楽やサウンドエフェクトを生成可能。
Creative Commons (CC):
著作権者が作品の利用ルールを指定できるライセンス。CC0はパブリックドメインに作品を献納する。
オープンソース:
ソースコードを公開し、誰でも自由に利用・改変できるソフトウェア。

【参考リンク】
Stability AIオフィシャルサイト（外部）

【関連記事】
Stability AIに関する記事をinnovaTopiaでもっと読む

【ニュース解説】

Stability AIが音響デザイン向けに「Stable Audio Open 1.0」という新しいAIツールを発表しました。このツールは、テキストからオーディオを生成することに特化しており、特にドラムビートや楽器のリフ、環境音などの短い音声作品の生成に焦点を当てています。商用利用に向けたStable Audio製品とは異なり、Stable Audio Openは最大47秒の高品質なオーディオデータ生成を目的としており、完全な曲の作成ではなく、サウンドデザインや音楽制作のためのサンプル作成に適しています。

このモデルは、FreeSoundやFree Music Archiveからのオーディオデータを使用してトレーニングされており、著作権や所有権のある素材が許可なく使用されることはありません。また、Stable Audio Openは技術的にオープンソースではないものの、非商業的研究コミュニティ契約ライセンスの下で利用可能であり、研究や創造的な使用を促進することを目的としています。

このツールの大きな利点の一つは、ユーザーが独自のオーディオデータでモデルを微調整できることです。これにより、音楽家やサウンドデザイナーは、自分たちの作品に合わせてカスタマイズされたサウンドを生成することが可能になります。例えば、ドラマーは自分のドラム録音を使ってモデルを微調整し、新しいビートを生み出すことができます。

この技術のポジティブな側面としては、音楽制作やサウンドデザインのプロセスを大幅に加速し、創造性を解放する可能性があります。また、著作権に配慮したトレーニングデータの使用は、法的な問題を避けつつイノベーションを促進する良い例です。

一方で、潜在的なリスクとしては、生成されたオーディオが既存の作品と類似してしまう可能性があり、著作権侵害の問題が生じる可能性があります。また、この技術の普及により、音楽やサウンドデザインの分野での仕事が自動化によって置き換えられる可能性も考えられます。

将来的には、このようなAI技術の進化が音楽産業やエンターテインメント業界に大きな変革をもたらすことが予想されます。創造的なプロセスの効率化だけでなく、新しい形の音楽表現やサウンドアートの創出が可能になるでしょう。しかし、その一方で、著作権や倫理的な問題に対する新たな規制やガイドラインの策定が求められることになるかもしれません。

from Stability AI debuts new Stable Audio Open for sound design.

AI（人工知能）ニュース