Stability AI、Stable Audio 3.0発表|フル尺楽曲生成・スマホ完結を実現

スマホやノートPCの中で、6分超のフル楽曲がオフラインで生まれる時代がやってきました。Stability AIが2026年5月20日に発表した音楽生成AI「Stable Audio 3.0」は、4モデル中3モデルをオープンウェイトで公開し、しかも学習データはすべてライセンス取得済み。著作権訴訟に揺れる競合とは一線を画す「商業的に安全な生成AI」として、音楽制作の景色を大きく変えようとしています。


Stability AIは2026年5月20日、Stable Audio 3.0をリリースした。

これはライセンス取得済みデータおよびクリエイティブ・コモンズ音源で学習されたモデルファミリーであり、Stable Audio 3.0 Small SFX、Stable Audio 3.0 Small、Stable Audio 3.0 Medium、Stable Audio 3.0 Largeの4モデルで構成される。

このうちSmall SFX、Small、Mediumの3モデルはオープンウェイトであり、Hugging Faceからダウンロード可能だ。Largeは、Stability AI APIおよびエンタープライズ向けセルフホスティングで提供される。Stability AI Community Licenseのもとで、ユーザーは生成物の所有権を持ち、配布・商業利用が可能である。年間売上100万ドル超の組織にはEnterprise Licenseが用意される。

3.0 Smallは最長2分、3.0 Mediumおよび3.0 Largeは6分超の生成に対応し、Mediumは最長6分20秒の長尺トラックを生成可能だ。3.0 Smallはオンデバイスでの楽曲全体生成に対応し、LoRAトレーニングのドキュメントも公開された。

From: 文献リンクMeet Stable Audio 3.0, the model family built for artistic experimentation with open-weight models

【編集部解説】

Stable Audio 3.0が示す最大のポイントは、技術的飛躍と同時に「商業的に安全な生成AI」というポジショニングを鮮明に打ち出した点にあります。競合のSunoやUdioが大手レーベルから著作権侵害訴訟を提起されてきたなか、Stability AIは学習データをライセンス取得済みおよびクリエイティブ・コモンズの音源に絞り、Enterprise Licenseでは法的補償(リーガル・インデムニフィケーション)まで提供しています。「訴訟リスクを企業ユーザーに負わせない」という、はっきりとした意思表示です。

学習データの中身も透明性が高いものとなっています。Hugging Face公式モデルカードによれば、データセットは全体で約127万8902音源で構成され、その内訳は商用音源ライブラリAudioSparxから80万6284音源、Freesoundのクリエイティブ・コモンズ音源(CC-0、CC-BY、CC-Sampling+)から47万2618音源です。後者についてはPANNsタガーによる音楽関連タグの検出と、外部のコンテンツ検出会社による検証を通じて、著作権物を除去するプロセスが施されています。データセット構築の段階から、責任あるAIづくりの思想が貫かれた設計と言えるでしょう。

モデル設計の戦略性も注目すべきです。Small SFXとSmallがそれぞれ4.59億パラメータ、Mediumが14億、Largeが27億パラメータ(いずれも拡散トランスフォーマー部分のパラメータ数)と段階的に配置され、上位のLargeのみAPI/エンタープライズ向けに留めて他3つをオープンウェイト公開する構成になっています。これはStable Diffusionが画像生成の文化を塗り替えた時の方程式そのもので、コミュニティ主導のイノベーションと商用収益の両立を狙ったものです。

技術面で最も画期的なのは「オンデバイスでの楽曲全体生成」です。これまで端末上で動く音楽生成モデルは数秒〜十数秒のサンプル生成にとどまっていました(Stable Audio Open Smallで11秒、Stable Audio Openで47秒)。3.0 Smallはこの壁を破り、2分のフル楽曲を、しかもクラウド接続なしで生成できます。ノートPCなどのポータブル端末上で音楽生成を完結させる未来が、いよいよ現実味を帯びてきました。

小型モデル(Small/Small SFX)はH200 GPU上で最大2分の音源を約0.44秒で生成可能と論文の性能表で報告されており、レイテンシ面でもリアルタイム創作ツールへの応用が視野に入っています。可変長生成により、MediumおよびLargeはともに最長6分20秒の楽曲を、構造とメロディの一貫性を保ったまま生成可能となり、効果音やBGMサンプルの域を越えて、ストリーミング楽曲に近い尺の生成に対応するレベルへと到達しました。こうした飛躍を支えているのが、原文で「セマンティック・アコースティック・オートエンコーダ」と呼ばれる新規アーキテクチャです。

LoRAファインチューニングのドキュメント公開と、オーディオ・インペインティング(部分修正)機能の搭載も意味の大きい一歩です。前者は「自分のレーベル独自の音色」を学習させた専用モデルが作りやすくなる時代を意味し、後者はDAW(Digital Audio Workstation)の編集ワークフローにAIが組み込まれる入り口を開きます。「生成」だけでなく「直す」「足す」「差し替える」までこなせるようになって、ようやくAIがプロの制作現場に対等な道具として座れる準備が整ってきました。

産業構造の文脈も押さえておくべきでしょう。Stability AIは2025年10月30日にUniversal Music Groupと戦略提携を発表し、続いて11月19日にはWarner Music Groupとも合意しました。この一連の動きは、メジャーレーベルが「AIを敵対視するのではなく、ライセンス済みパートナーと組んで責任あるAIを共に開発する」路線を、明確に強めてきていることを示しています。

一方で、リスクや課題も冷静に見据える必要があります。「ライセンス済みデータ」とはいえ、生成AIが既存ミュージシャンの仕事や報酬構造を変えていく事実は残ります。オープンウェイト公開された以上、コミュニティ側で意図しない倫理的逸脱が発生する可能性もゼロではありません。日本においては、JASRACをはじめとする著作権管理団体とAI音楽生成の関係性がどう整理されるのか、規制と実務の両面で重要な論点となっていきそうです。

このリリースは、これが単に「6分の曲が作れるようになった」という話ではありません。生成AIをめぐる議論は、ようやく「クオリティ・同意・報酬」の三点が同じテーブルに並ぶ段階へと進みました。Stable Audio 3.0は、その新しいテーブルの上に置かれた、最初の本格的な提案として位置づけることができるはずです。

【用語解説】

リーガル・インデムニフィケーション(Legal Indemnification)
日本語では「法的補償」と訳される。AIベンダーが提供するモデルを企業ユーザーが利用した際、生成物に起因する著作権訴訟などのリスクに対し、ベンダー側が法的責任や賠償を肩代わりする契約上の保証を指す。生成AIを企業導入する際の大きな安心材料となる。

LoRA(Low-Rank Adaptation)
大規模AIモデルの全パラメータを再学習することなく、少量のデータと計算リソースで特定の用途に最適化(ファインチューニング)するための効率的な手法だ。画像生成AIで広く普及し、現在は音声・音楽生成にも応用が広がっている。

オーディオ・インペインティング(Audio Inpainting)
画像生成における「インペインティング」(画像の一部を選択して修正する技術)を、音声・音楽に応用したものである。曲の特定セクションだけを差し替えたり、途中まで作った楽曲の続きを生成したりする「部分編集」を可能にする。

DAW(Digital Audio Workstation)
音楽制作・録音・編集を行うためのソフトウェアの総称である。代表例にPro Tools、Logic Pro、Ableton Live、Cubaseなどがある。プロのスタジオから個人のベッドルーム制作まで、現代の音楽制作の中核を担うツールだ。

クリエイティブ・コモンズ(Creative Commons)
作者があらかじめ利用条件を定めて作品を公開できる国際的なライセンス枠組みである。「表示」「非商用」「改変禁止」などの条件を組み合わせて設定でき、AIの学習データソースとしても重要な存在となっている。

セマンティック・アコースティック・オートエンコーダ(Semantic-Acoustic Autoencoder)
オーディオデータを「意味的な構造(メロディ、リズム、楽曲の流れ)」と「音響的な特徴(音色、質感)」の両面から圧縮表現に変換するニューラルネットワークだ。Stable Audio 3.0の長尺・高品質生成を支える中核技術である。

【参考リンク】

Stability AI(公式サイト)(外部)
英ロンドン拠点の生成AI企業の公式サイト。画像・動画・3D・音声分野のモデルとエンタープライズ向け製品を展開している。

Stable Audio(公式デモサイト)(外部)
Stable Audio 3.0 Largeを実際に試せる公式Webサービス。テキストから音楽・効果音を生成できる体験ページだ。

Hugging Face – Stable Audio 3 Collection(外部)
オープンウェイト版Small SFX、Small、Mediumの重みデータをまとめてダウンロードできる公式コレクションページ。

GitHub – Stability-AI/stable-audio-3(外部)
Stable Audio 3の推論とファインチューニング用の公式リポジトリ。技術レポートや実装情報がまとまっている。

AudioSparx(公式サイト)(外部)
プロ向けロイヤリティフリーの商用音源ライブラリ。Stable Audio 3.0の主要な学習データ提供元となっている。

Freesound(公式サイト)(外部)
バルセロナのポンペウ・ファブラ大学が運営する、クリエイティブ・コモンズ音源の国際的な共有プラットフォーム。

Creative Commons(公式サイト)(外部)
国際的なオープンライセンス枠組みを提供する非営利組織の公式サイト。AI学習データの議論で重要な存在となる。

Universal Music Group(公式サイト)(外部)
世界三大メジャーレーベルのひとつ。2025年10月30日にStability AIとの戦略提携を発表した企業として知られる。

Warner Music Group(公式サイト)(外部)
世界三大メジャーレーベルのひとつ。2025年11月19日にStability AIとの戦略提携合意を公表した企業だ。

NVIDIA H200(外部)
Stable Audio 3.0 Smallの推論ベンチマークに用いられたNVIDIAのデータセンター向けGPU。

【参考記事】

Stability AI releases a new audio model that can create 6-minute songs(TechCrunch)(外部)
4モデルのパラメータ数(459M〜2.7B)とMedium・Largeの6分20秒生成対応を詳細に整理した報道。

Stability AI launches Stable Audio 3.0 with up to six-minute tracks and open weights(The Decoder)(外部)
H200で0.44秒推論、Largeのパラメータ数、競合との対比など、技術と戦略の両面を整理した報道。

Stable Audio 3 Medium – Hugging Face公式モデルカード(外部)
Stability AI自身が公開する一次情報源。学習データ全127万音源の内訳や技術仕様を確認できる。

Stable Audio 3 Technical Report(arXiv)(外部)
研究論文のHTML版。各モデルのパラメータ数、生成尺、推論時間の性能表が掲載された一次情報源。

Stability AI releases Stable Audio 3.0 with six-minute song generation capabilities(CryptoBriefing)(外部)
Stable Audio 2.0(2024年4月、最長3分)からの世代間比較と生成尺の推移を時系列で整理。

WMG strikes deal with Stability AI to build the next generation of responsible AI tools for music creation(Music Business Worldwide)(外部)
2025年11月19日のWarner Music GroupとStability AI提携発表を報じた業界メディアの記事。

【関連記事】

音響デザイン革新!Stability AIが「Stable Audio Open 1.0」発表
今回のStable Audio 3.0の直接の前世代モデル(最長47秒)を扱った記事。

Universal Music GroupがAI音楽Udioと和解、アーティスト報酬付き新プラットフォームを2026年ローンチへ
本記事で言及したメジャーレーベル×AI企業の和解・提携路線の代表事例を詳しく解説している。

Warner Music GroupとSunoがAI音楽で提携──アーティストの声とライクネスをどう守り、どう稼ぐか
WMG×Sunoの提携の業界インパクトを深掘りした記事。

生成AIと著作権の共存へ – Musical AIのアトリビューション技術が音楽業界を変える
音楽業界の「訴訟から協調へ」というパラダイムシフトを俯瞰する記事。

【関連記事】

音響デザイン革新!Stability AIが「Stable Audio Open 1.0」発表
今回のStable Audio 3.0の直接の前世代モデル(最長47秒)を扱ったinnovaTopia記事です。

Universal Music GroupがAI音楽Udioと和解、アーティスト報酬付き新プラットフォームを2026年ローンチへ
本記事で言及したメジャーレーベル×AI企業の和解・提携路線の代表事例を詳しく解説しています。

Warner Music GroupとSunoがAI音楽で提携──アーティストの声とライクネスをどう守り、どう稼ぐか
WMG×Sunoの提携の業界インパクトを深掘りした記事です。本記事と合わせて読むと文脈が立体化します。

生成AIと著作権の共存へ – Musical AIのアトリビューション技術が音楽業界を変える
音楽業界の「訴訟から協調へ」というパラダイムシフトを俯瞰する記事です。

AIのオープンウェイトモデルとは?オープンソースとの違い、AIモデルの「重み」と「ライセンス」
本記事の中核概念「オープンウェイト」をより深く理解したい方向けの解説記事です。

Suno v5.5、自分の声で音楽を作る時代へ—Voices・カスタムモデル・My Taste正式リリース
Stable Audioの主要な競合Sunoの最新動向と訴訟和解状況をまとめた記事です。

【編集部後記】

Stable Audioシリーズに最初に触れたのは2024年6月、まだ47秒の音源しか生成できなかった「Stable Audio Open 1.0」の発表時でした。あれから2年弱の間に、大手レーベルとAI企業の訴訟、和解、そして提携への急転換を立て続けに目撃してきました。Universal Music GroupとUdioの和解、Warner Music GroupとSunoの提携、Musical AIによるアトリビューション技術の登場——どれもこの数ヶ月で起きた出来事です。

今回のStable Audio 3.0は、その大きな潮流が「責任あるAI」と「技術的成熟」の両方を要求しはじめた段階での、Stability AIからの一つの回答だと感じます。先日innovaTopiaで報じたRoland「Project LYDIA」がAIを楽器そのものに組み込もうとしていたことと合わせて考えると、AIは「クラウド上で曲を作るサービス」から「手元の道具」へと、確実に居場所を変えつつあります。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。