innovaTopia

ーTech for Human Evolutionー

Googleの「Lumiere」、動画生成の新境地を切り開く

Googleの「Lumiere」、動画生成の新境地を切り開く - innovaTopia - (イノベトピア)

Last Updated on 2024-09-25 06:13 by admin

【ダイジェスト】

Googleが開発した「Lumiere」という新しいAI技術が、リアルな動画生成の分野で注目を集めています。この技術は、Googleの研究者たちによって提案されたもので、Weizmann科学研究所やテルアビブ大学との共同研究によって生まれました。Lumiereは、現実的で多様かつ一貫性のある動きを描写するビデオを合成することができるとされています。

Lumiereの最大の特徴は、自然言語で記述されたテキスト入力に基づいて動画を生成する能力です。ユーザーは、動画に何を描写してほしいかをテキストで入力し、その通りの動画を生成することができます。また、既存の静止画像をアップロードし、それを動的なビデオに変換するプロンプトを追加することも可能です。さらに、特定のオブジェクトをテキストプロンプトで編集して挿入するインペインティング、シーンの特定部分に動きを加えるシネマグラフ、一つの画像から参照スタイルを取り入れてビデオを生成するスタイリッシュな生成など、追加機能もサポートしています。

研究者たちは、Lumiereが画像からビデオへの変換、ビデオのインペインティング、スタイリッシュな生成など、幅広いコンテンツ作成タスクやビデオ編集アプリケーションを容易に実現することを論文で示しています。しかし、これらの機能は業界では新しいものではなく、RunwayやPikaなどの企業も提供しています。それでも、Lumiereはビデオ生成における時間的なデータの次元を、既存のモデルが段階的に処理するのとは異なり、Space-Time U-Netアーキテクチャを使用してビデオの全時間的な長さを一度に生成することで、よりリアルで一貫性のある動きを実現しています。

Lumiereは、3000万本のビデオとそれに付随するテキストキャプションを含むデータセットでトレーニングされ、80フレームを16fpsで生成する能力を持っています。ただし、これらのデータの出典は現段階では明らかにされていません。

他のAIビデオモデルとの比較では、PikaやRunway、Stability AIなどのモデルは高いフレームごとの視覚品質を提供していましたが、4秒間の出力には動きが限られており、時にはほとんど静止したクリップになることもありました。ImagenVideoはまずまずの動きを提供しましたが、品質面で遅れをとっていました。対照的に、Lumiereは5秒間のビデオを生成し、より大きな動きを維持しながら、時間的な一貫性と全体的な品質を保っていると研究者は述べています。また、テキストや画像からビデオを生成する際に、ユーザー調査ではLumiereが競合他社よりも好まれる結果となりました。

AIビデオ市場が急速に進化する中で、Lumiereは新たな始まりを告げるものかもしれませんが、まだ実際にテストすることはできません。また、複数のショットを含むビデオやシーン間の遷移を含むビデオを生成することはできず、これは今後の研究課題として残されています。

【ニュース解説】

Googleが開発した「Lumiere」とは、リアルな動画を生成するためのAI技術で、自然言語でのテキスト入力に基づいて動画を生成する能力を持っています。この技術は、Googleの研究者たちがWeizmann科学研究所やテルアビブ大学と共同で研究し、現実的で多様かつ一貫性のある動きを描写するビデオを合成することが可能です。

Lumiereは、ユーザーが望むシーンをテキストで記述することで、その内容に沿った動画を生成することができます。例えば、「犬が公園を走る」というテキストを入力すると、そのシーンを描いた動画が生成されるわけです。また、静止画をアップロードして動的なビデオに変換したり、ビデオに特定のオブジェクトを挿入したり、特定のスタイルで動画を生成するなど、多様な編集機能を持っています。

Lumiereの特徴的な点は、ビデオ生成における時間的なデータの次元を一度に処理するSpace-Time U-Netアーキテクチャを使用していることです。これにより、ビデオの全時間的な長さを一貫性を持って生成することができ、リアルで一貫性のある動きを実現しています。これは、既存のモデルが段階的に処理する方法とは異なり、より高品質な動画生成に寄与しています。

Lumiereは3000万本のビデオとテキストキャプションを含むデータセットでトレーニングされており、80フレームを16fpsで生成する能力を持っていますが、これらのデータの出典はまだ公開されていません。他のAIビデオモデルと比較しても、Lumiereはより大きな動きと高い品質を維持しながら、5秒間のビデオを生成することができると評価されています。

しかし、Lumiereにはまだ限界があり、複数のショットやシーン間の遷移を含むビデオの生成はできないため、これは今後の研究で克服すべき課題とされています。AIビデオ市場は急速に進化しており、Lumiereが実際に利用可能になれば、コンテンツ制作やビデオ編集の分野で大きな影響を与える可能性があります。一方で、このような技術の進歩は、著作権やプライバシーの問題、偽情報の拡散など、新たな課題を生み出す可能性もあるため、技術の発展とともにこれらの問題に対する対策も重要になってきます。

from Google shows off Lumiere, a space-time diffusion model for realistic AI videos .

ホーム » AI(人工知能) » AI(人工知能)ニュース » Googleの「Lumiere」、動画生成の新境地を切り開く