Stability AIは、Stable Diffusion Mediumという新しいサイズの画像生成モデルをリリースしました。このモデルは、消費者向けGPUで効率的に動作するように設計されています。
Stable Diffusion 3の初期リリースは2月22日にプレビューされ、4月17日にAPIを通じて一般に公開されました。Stable Diffusion Mediumは、リソースに制約のあるユーザーや組織が高性能な画像生成技術を利用できるようにするための、より小さく非常に能力のあるモデルです。
このモデルはAPIを通じて、またDiscord上のStable Artisanサービスを通じて利用可能で、非商用利用のためのモデルの重みはHugging Face上で利用可能です。
Stable Diffusion 3(SD3)Largeとして知られる初期リリースに対して、SD3 Mediumは20億のパラメータを持ち、消費者向けハードウェアで効率的に動作します。SD3 Mediumは5GBのGPU VRAMで動作し、16GBのGPU VRAMを推奨していますが、これは多くのラップトップにとっては厳しい要求かもしれませんが、不合理な量ではありません。
SD3 Mediumは、SD3 Largeと比較しても特徴の範囲で比較可能な非常に高い品質レベルを提供すると主張されています。写真リアリズム、プロンプトへの遵守、タイポグラフィ、リソース効率、ファインチューニングなどの能力が、より小さいモデルにも含まれています。
SD3 Mediumは、16チャンネルのVAE(Variational Autoencoder)を使用して、メガピクセルあたりの詳細を以前のどのモデルよりも提供します。また、自然言語でのプロンプトの理解、画像内の要素の位置づけなど、空間理解においても優れています。リソース効率の面では、2Bモデルの比較的小さなサイズとモジュラリティが、性能を損なうことなく計算要件を削減し、リソース管理と効率が重要な環境に理想的な選択肢とされています。
【編集者追記】用語解説VAE(Variational Autoencoder)とは
VAE(Variational Autoencoder)とは、以下のような深層生成モデルの一種です。
- オートエンコーダーの拡張モデルで、入力データを潜在変数空間に写像する。
- 潜在変数空間の分布を事前分布に近づけるように正則化を行う。これにより、潜在空間が滑らかな連続的な表現になる。
- 潜在変数から新しいデータを生成(デコード)することができる。つまり生成モデルとしても機能する。
- 「変分」という言葉は、潜在変数の分布を変分ベイズ法で近似していることに由来する。
- 画像、音声、テキストなど様々なデータに対して適用可能。
- GANと並んで代表的な深層生成モデル。
VAEの利点は、単に入力を再構成するだけでなく、潜在空間の連続性から新しいデータを生成できる点にある。一方で、生成品質はGANほど高くない傾向がある。トレードオフの関係にあり、用途に合わせてモデル選択が必要となる。
【参考リンク】
Stability AIオフィシャルサイト(外部)
【関連記事】
Stability AIに関する記事をinnovaTopiaでもっと読む
【ニュース解説】
Stability AIが、消費者向けのGPUでも効率的に動作する新しいサイズの画像生成モデル「Stable Diffusion Medium」をリリースしました。このモデルは、リソースに制約があるユーザーや組織でも高性能な画像生成技術を利用できるように設計されており、APIを通じて利用可能です。また、非商用利用のためのモデルの重みはHugging Face上で提供されています。
Stable Diffusion Mediumは、20億のパラメータを持ち、5GBのGPU VRAMで動作することが可能です。これにより、幅広い消費者向けPCや高性能ラップトップでの利用が可能になります。推奨される16GBのGPU VRAMは、多くのラップトップにとっては高い要求かもしれませんが、このモデルの柔軟性と高性能を考えると、不合理な要求ではありません。
このモデルは、写真リアリズム、プロンプトへの遵守、タイポグラフィ、リソース効率、ファインチューニングなど、SD3 Largeと同等の機能を備えています。特に、16チャンネルのVAE(Variational Autoencoder)を使用することで、メガピクセルあたりの詳細が以前のどのモデルよりも向上しています。また、自然言語でのプロンプトの理解や画像内の要素の位置づけなど、空間理解においても優れています。
リソース効率の面では、2Bモデルの比較的小さなサイズとモジュラリティが、性能を損なうことなく計算要件を削減します。これにより、リソース管理と効率が重要な環境での利用に理想的です。
この技術の導入により、リソースが限られた環境でも高品質な画像生成が可能になります。これは、コンテンツ制作、デザイン、教育など、多岐にわたる分野での応用が期待されます。しかし、この技術の普及に伴い、生成された画像の著作権や倫理的な問題、偽情報の拡散など、新たな課題も生じる可能性があります。そのため、技術の発展と共に、これらの問題に対処するための規制やガイドラインの整備が求められます。
長期的には、このような画像生成技術の進化は、クリエイティブな作業の効率化や新たな表現方法の開拓に寄与する可能性があります。また、教育や研究などの分野での利用により、学習や情報の視覚化に新たな次元をもたらすことも期待されます。しかし、技術の進歩に伴う潜在的なリスクに対しても、常に注意を払い、適切な対策を講じることが重要です。
from Stability AI brings new size to image generation with Stable Diffusion Medium.