MetaがAI音楽生成からウォーターマーキングまで、新技術を大公開

[更新]2024年6月19日05:05

MetaがAI音楽生成からウォーターマーキングまで、新技術を大公開 - innovaTopia - (イノベトピア)

MetaのFundamental AI Research (FAIR) チームは、研究者向けに新しいAIモデルとツールを複数公開している。これらは、オーディオ生成、テキストからのビジョン生成、およびウォーターマーキングに焦点を当てている。Metaは、初期の研究作業を公開することで、イテレーションを促し、責任ある方法でAIの進歩に貢献することを目指していると述べている。

オーディオ生成モデルのJASCO(Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generationの略)は、コードやビートなど異なるオーディオ入力を取り込み、最終的なAI生成サウンドを改善することができる。JASCOは、テキストを通じてコード、ドラム、メロディーなどの生成サウンドの特徴を調整し、望む最終サウンドを磨き上げることを可能にする。JASCOの推論コードは、MITライセンスの下でAudioCraft AIオーディオモデルライブラリの一部として、事前訓練済みモデルは非商用のクリエイティブ・コモンズ・ライセンスで公開される予定である。

また、MetaはAI生成音声にウォーターマークを追加するAudioSealも発表した。これはAIで作成されたコンテンツを識別するMetaのツールの一つである。AudioSealは、より局所的な検出を可能にし、検出速度を485倍に高速化する。AudioSealは商用ライセンスでリリースされる。

さらに、FAIRは、視覚とテキストの理解が必要なタスクにモデルを指向させることができる、マルチモーダルテキストモデルChameleonの2つのサイズを、研究専用ライセンスの下で一般公開する。Chameleon 7Bと34Bは、画像キャプションなどに使用できるが、画像生成モデルは「現時点では」リリースされない。また、言語モデルを一度に複数の未来の単語に対して訓練するマルチトークン予測アプローチも、非商用および研究専用ライセンスで研究者に提供される。

【ニュース解説】

MetaのFundamental AI Research (FAIR) チームが、オーディオ生成、テキストからのビジョン生成、ウォーターマーキングに焦点を当てた新しいAIモデルとツールを公開しました。これらの技術は、AIの進歩を促し、より責任ある方法でのAIの使用を目指しています。

JASCOというオーディオ生成モデルは、異なるオーディオ入力を組み合わせて、テキストを通じて音楽の特徴を調整することができます。これにより、ユーザーは自分の望むサウンドを細かく調整し、生成することが可能になります。この技術は、音楽制作のプロセスを大きく変える可能性があり、特に非専門家でも高品質な音楽を作成できるようになることが期待されます。

また、AI生成音声にウォーターマークを追加するAudioSealというツールも発表されました。これは、AIで生成された音声コンテンツを特定しやすくするためのもので、より局所的な検出を可能にし、検出速度を大幅に向上させます。この技術は、AIによる偽情報の拡散を防ぐための重要なステップとなり得ます。

さらに、FAIRはChameleonというマルチモーダルテキストモデルを公開しました。これは、視覚とテキストの理解が必要なタスク、例えば画像キャプションの生成に使用できます。しかし、画像生成に関するモデルは公開されていません。このようなモデルの公開は、AIの研究と開発を加速させることが期待されますが、同時に、生成されたコンテンツの真偽を見分ける技術の重要性も高まっています。

これらの技術の公開は、AIの進化において重要な一歩です。音楽、画像、テキストの生成に関する新しい可能性を開くと同時に、AIによるコンテンツの識別と真偽の検証に関する課題も提起しています。長期的には、これらの技術がどのように社会に影響を与え、規制されるべきかについての議論も必要になるでしょう。AIの責任ある使用と進化を促進するためには、技術開発と倫理的な考慮が両立する必要があります。

from Meta releases flurry of new AI models for audio, text and watermarking.


読み込み中…
advertisements
読み込み中…