innovaTopia

ーTech for Human Evolutionー

Stability AIが2D画像を3Dシーンに変換する新AIモデル「Stable Virtual Camera」をリリース

 - innovaTopia - (イノベトピア)

Last Updated on 2025-03-19 11:39 by admin

Stability AIは2025年3月18日、2D画像を没入型の3D動画に変換できる新しいAIモデル「Stable Virtual Camera」をリリースした。このモデルは現実的な奥行きと遠近感を持つ動画を生成することが可能である。

Stable Virtual Cameraは1枚から最大32枚の画像を使用して、ユーザーが指定したカメラアングルでシーンの新しい視点を生成する。「スパイラル」「ドリーズーム」「ムーブ」「パン」などのプリセットを含むダイナミックなカメラパスに沿って動画を作成できる機能を備えている。

現在提供されているリサーチプレビュー版は、正方形(1:1)、縦長(9:16)、横長(16:9)のアスペクト比で最大1,000フレームの長さの動画を生成できる。

Stability AIは、人間、動物、波打つ水などの動的なテクスチャが特徴的な画像では低品質の結果を生成する可能性があると警告している。また、曖昧なシーン、物体と交差する複雑なカメラパス、不規則な形状の物体はちらつきのアーティファクトを引き起こす可能性があるとしている。

Stable Virtual Cameraは非商用ライセンスの下で研究用に利用可能であり、AI開発プラットフォームのHugging Faceからダウンロードできる。

Stability AIは経営陣の変更を経験しており、創業者のエマード・モスタークが退任した後、新たな経営陣のもとで事業の立て直しを図っている。同社は2025年3月初めにはチップメーカーのArmと提携し、音響効果を含む音声を生成できるAIモデルをArmチップ搭載のモバイルデバイスに提供することを発表している。

from:Stability AI’s new AI model turns photos into 3D scenes

【編集部解説】

Stability AIが発表した「Stable Virtual Camera」は、2D画像から3D動画を生成する技術として注目に値します。この技術は単なる画像変換ツールではなく、映像制作やコンテンツ創造の可能性を大きく広げる可能性を秘めています。

Stable Virtual Cameraは最大32枚の2D画像から3D動画を生成できるマルチビュー拡散モデルです。従来の3D生成技術では、複雑な再構成や特定のシーンに最適化する処理が必要でしたが、このモデルではそうした手間を大幅に削減できるようです。

特筆すべきは、「スパイラル」「ドリーズーム」「ムーブ」「パン」などの複数のダイナミックなカメラパスを提供している点でしょう。これらには360°回転や∞形のパス、ズームイン・アウト、前後移動、上下左右のパンなど、映像制作者にとって魅力的なオプションが揃っています。

このモデルの活用範囲は非常に広いと考えられます。デジタル映画制作や3Dアニメーション制作はもちろん、メタバースのコンテンツ制作、マーケティング素材の作成、教育コンテンツの視覚化など、様々な分野での応用が期待できます。

一方で、現時点での技術的限界も認識しておく必要があります。人間や動物を含む画像、波打つ水などの動的なテクスチャを持つ画像、曖昧なシーン、物体と交差する複雑なカメラパス、不規則な形状の物体などでは、品質が低下したりちらつきが発生したりする可能性があります。

Stability AIの経営状況についても触れておきましょう。同社は経営危機に直面し、共同創設者のエマード・モスタークがその後CEOを辞任する事態となりました。しかし、エリック・シュミットやショーン・パーカーなどの著名投資家からの新たな資金調達、映画監督ジェームズ・キャメロンの取締役就任など、事業の立て直しを図っています。

Stable Virtual Cameraは、Stability AIが以前リリースした「Stable Video 3D (SV3D)」や「Stable Zero123」などの3D生成モデルの発展形と見ることもできます。SV3Dは単一の2D画像から3Dメッシュオブジェクトモデルを生成できるAIモデルで、3Dオブジェクト生成のベンチマークで最先端の結果を示しました。

このような技術の進化は、3Dコンテンツ制作の民主化につながる可能性があります。従来は専門的な知識や高価なソフトウェア、強力なハードウェアが必要だった3D制作が、AIの力でより手軽になるかもしれません。

現在のStable Virtual Cameraは非商用ライセンスの下で研究用に提供されていますが、将来的には商用利用も視野に入れていると考えられます。Stability AIは3月初めにArmと提携し、音響効果を含む音声を生成できるAIモデルをモバイルデバイスに提供することを発表しており、様々な形での技術展開を進めています。

【用語解説】

アーティファクト:
生成AIなどにおいては、生成段階に生じるデータの歪みや、意図しない出力結果のことを指す。

マルチビュー拡散モデル(Multi-view Diffusion Model)
複数の視点から見た画像を一貫性を持って生成できるAIモデル。従来の単一視点の生成モデルと異なり、3D空間における物体の位置関係や奥行きを理解した上で、異なる角度からの画像を矛盾なく生成できる。例えるなら、一枚の写真から立体的な模型を作り、それをあらゆる角度から撮影できるようなもの。

バーチャルカメラ
3DCGソフトウェアやゲームエンジンなどで使用される仮想的なカメラ。実際のカメラと同様に、位置や角度、レンズの種類などを調整して3D空間内を自由に移動・撮影できる。映画「アバター」などでは、監督がバーチャルカメラを手に持ち、CGで作られた3D空間内を歩き回りながら撮影するシステムが使われた。

ドリーズーム
カメラを被写体に近づけたり遠ざけたりする動き(ドリー)と、同時にズームレンズの焦点距離を調整することで、被写体のサイズを一定に保ちながら背景の見え方だけを変化させる撮影技法。映画「ジョーズ」や「めまい」で有名になった効果で、心理的な衝撃や不安感を表現するのに使われる。

Hugging Face
AIモデルやデータセットを共有するためのプラットフォーム。GitHubがソフトウェアコードのための共有サイトであるのに対し、Hugging Faceは主にAIモデル向けの共有サイトである。研究者や開発者が自分のAIモデルを公開したり、他の人が作ったモデルをダウンロードして使ったりできる。

【参考リンク】

Stability AI(公式サイト)(外部)
生成AIの開発企業。Stable Diffusionなどの画像生成モデルで知られ、最新のAIモデルを研究・開発している。

Hugging Face – Stable Virtual Camera(外部)
Stable Virtual Cameraモデルのダウンロードページ。技術仕様やサンプル、使用方法などが掲載されている。

GitHub – Stable Virtual Camera(外部)
Stable Virtual Cameraのソースコードリポジトリ。技術的な詳細やインストール方法、使用例などが記載されている。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

Stability AIの記事をinnovaTopiaでもっと読む

author avatar
りょうとく
主に生成AIやその権利問題について勉強中。
ホーム » AI(人工知能) » AI(人工知能)ニュース » Stability AIが2D画像を3Dシーンに変換する新AIモデル「Stable Virtual Camera」をリリース