2026年2月2日、AI音楽生成の歴史に新たな転換点が刻まれた。わずか2秒でフルソングを生成し、評価指標で商用サービスのSunoを上回るオープンソースモデル「ACE-Step v1.5」がMITライセンスで無料公開されたのだ。コンシューマーグレードのGPUでローカル動作し、商用利用も完全自由というこの技術は、音楽制作の民主化を大きく前進させる可能性を秘めている。
ACE Studio開発チームは、オープンソース音楽生成モデル「ACE-Step v1.5(2B)」をリリースした。このモデルはコンシューマーグレードのGPU上でローカル動作し、A100では2秒未満、RTX 3090では10秒未満でフルソングを生成する。4GB未満のVRAMで動作し、LoRAファインチューニングに対応する。一般的な評価指標において商用モデルのSUNOを上回る性能を示した。
言語モデルとDiffusion Transformerを組み合わせたハイブリッドアーキテクチャを採用し、内在的な強化学習によって外部報酬モデルのバイアスを排除している。短いループから10分の作品まで対応し、50以上の言語をサポートする。カバー生成、リペイント、ボーカルからBGMへの変換などの編集機能を統合している。
From:
Pushing the Boundaries of Open-Source Music Generation

【編集部解説】
今回のACE-Step v1.5のリリースは、AI音楽生成の分野における重要な転換点といえます。これまで商用レベルのAI音楽生成は、SunoやUdioといったクラウドベースの有料サービスが独占してきましたが、MITライセンスという完全にオープンなライセンス形態で、しかも商用利用が無料という形でリリースされた点が画期的です。
技術的な革新性にも注目すべき点があります。言語モデルとDiffusion Transformerを組み合わせたハイブリッドアーキテクチャは、楽曲の構造設計と音響合成を分離することで、より計画的で一貫性のある楽曲生成を実現しています。特に「内在的強化学習」と呼ばれる手法により、外部の報酬モデルや人間の好みによるバイアスを排除している点は、生成AIの公平性という観点からも興味深い試みです。
評価指標においてSuno v4.5を上回る性能を示した点も見逃せません。公式の比較表によると、ACE-Step 1.5はSongEvalの指標で8.09を記録し、Suno v4.5の7.85を上回っています。音楽的一貫性(Musical Coherence)では4.67、歌詞の整合性(Lyric Alignment)では26.3という数値を達成しました。
実用面では、RTX 3090という比較的入手しやすいGPUで10秒未満で楽曲生成が可能という点が重要です。これはクリエイターにとって、アイデアを即座に試行できる環境が整ったことを意味します。AMDのブログでは、Radeon AI PRO R9700では再生時間の約4倍の速度で生成できると報告されています。
LoRAファインチューニング機能により、わずか数曲から独自のスタイルを学習できる点も注目に値します。これはミュージシャンが自身の音楽性をAIに反映させ、創作支援ツールとして活用できる可能性を開きます。
ただし、懸念点もあります。プロジェクトは「著作権フリーの素材のみでトレーニングした」と主張していますが、生成された楽曲が既存作品と類似する可能性は完全には排除できません。開発チームもこのリスクを認識しており、ユーザーに対して生成物の独創性を検証し、AI使用を明示することを推奨しています。
音楽産業への影響は複雑です。一方で、小規模クリエイターや予算の限られたプロジェクトにとって、高品質な音楽制作の民主化は歓迎すべき進展でしょう。他方で、商業音楽制作における人間のミュージシャンの役割が変化する可能性もあります。
長期的には、このようなオープンソースモデルの登場により、音楽AIの研究開発が加速し、さらなる技術革新が期待できます。ComfyUIとの統合により、既存のAI創作ワークフローに組み込みやすい点も、普及を後押しするでしょう。
【用語解説】
LoRA(LoRAファインチューニング)
Low-Rank Adaptation(低ランク適応)の略称。AIモデルの基本的な重みを固定したまま、小規模な追加パラメータのみを訓練する手法である。通常の全パラメータ訓練と比較して、訓練可能なパラメータを約1~2%に削減でき、GPUメモリ使用量と訓練時間を大幅に削減する。音楽生成において、ユーザーが数曲のサンプルから独自のスタイルをAIに学習させる際に使用される。
VRAM
Video Random Access Memoryの略。GPU(グラフィックス処理装置)に搭載された専用メモリのことである。AIモデルの実行には大量のVRAMが必要となるが、ACE-Step v1.5は4GB未満という比較的少ないVRAMで動作する点が特徴である。
Diffusion Transformer(DiT)
拡散モデルとTransformerアーキテクチャを統合した生成モデルである。従来のUNetアーキテクチャではなく、Transformerエンコーダをノイズ除去ネットワークとして使用する。Self-Attentionメカニズムによりデータの長距離依存関係を捉えることに優れており、音楽の複雑な構造をモデル化して一貫性のある作品を生成するのに効果的である。
内在的強化学習
モデルの内部メカニズムのみに依存して学習を行う手法である。外部の報酬モデルや人間の好みによるフィードバックを必要としないため、これらの要素に内在するバイアスを排除できる。ACE-Step v1.5では、この手法により言語モデルとDiffusion Transformerのアライメントを実現している。
MITライセンス
最も寛容なオープンソースライセンスの一つである。ソフトウェアの使用、複製、変更、配布、サブライセンス、販売を自由に行うことができ、商用プロジェクトへの組み込みも制限なく可能である。元のライセンスと著作権表示を含める必要があるが、派生作品に同じライセンスを適用する義務はない。
SongEval
AI音楽生成モデルの品質を評価するための指標システムである。音楽的一貫性(Musical Coherence)、歌詞の整合性(Lyric Alignment)などの複数の次元でモデルを評価する。ACE-Step v1.5はこの指標で8.09を記録し、Suno v4.5の7.85を上回った。
A100 / RTX 3090
NVIDIAが製造するGPUの製品名である。A100はデータセンター向けのハイエンドGPU、RTX 3090は一般消費者向けのハイエンドGPUである。ACE-Step v1.5は、A100で2秒未満、RTX 3090で10秒未満で楽曲を生成できる。
【参考リンク】
ACE Studio公式サイト(外部)
AI音楽制作ツールの全機能とACE-Step v1.5に関する情報を提供する公式サイト。
ACE-Step 1.5 GitHubリポジトリ(外部)
ACE-Step v1.5のソースコード、技術文書、インストール手順を公開するページ。
ACE-Step 1.5プロジェクトページ(外部)
技術的詳細、アーキテクチャ解説、デモ音源、評価結果を掲載する公式ページ。
Hugging Face – ACE-Step/Ace-Step1.5(外部)
学習済みモデルをダウンロードできるページ。モデルカードと使用方法を掲載。
Suno公式サイト(外部)
ACE-Step v1.5が評価指標で比較対象としたクラウドベースの音楽生成AIサービス。
ComfyUI(外部)
AI画像・音声生成のためのノードベース・ワークフローツール。ACE-Step v1.5統合済み。
【参考動画】
ACE Studio 2.0: ALL-IN-ONE AI Music Studio, Keeping Musicians Ahead in the AI Era
ACE Studio公式チャンネルによる製品紹介動画(2025年12月4日公開)。
【参考記事】
Pushing the Boundaries of Open-Source Music Generation(外部)
ハイブリッドアーキテクチャの詳細と評価指標での比較結果を掲載する公式ページ。
Commercial-grade AI music generation on AMD Ryzen™ AI and Radeon(外部)
AMDによる公式ブログ記事。Radeon AI PRO R9700での動作速度を報告。
ACE-Step 1.5 is Now Available in ComfyUI(外部)
ComfyUI公式ブログによる統合発表記事。視覚的なワークフローでの音楽生成に対応。
ACE-Step 1.5 is HERE – Commercial-ready, 4GB VRAM, MIT License(外部)
Reddit上のコミュニティ投稿。実際のユーザーからの反応と技術的議論を掲載。
ACE-Step/Ace-Step1.5 – Hugging Face(外部)
Hugging Face上の公式モデルページ。モデルの技術仕様とダウンロード情報を記載。
【編集部後記】
オープンソースのAI音楽生成が、ここまで身近になるとは想像していませんでした。皆さんは、自分だけのオリジナル楽曲を数秒で生成できる未来をどう捉えますか?
クリエイターの創作を支援するツールとして、あるいは音楽制作の民主化を進める一歩として、ACE-Step v1.5のような技術は大きな可能性を秘めています。一方で、人間のミュージシャンの役割や著作権の問題など、考えるべき課題も少なくありません。
この技術が音楽業界や私たちの創作活動にどんな変化をもたらすのか、一緒に見守っていきたいと思います。






がもたらす「アンテザード・ソサエティ」の衝撃-300x200.png)





























