ーTech for Human Evolutionー

CogVideoX：オープンソースAI動画生成モデルが映像制作の未来を変える

AI（人工知能）ニュース

Headline News

TaTsu

[公開]

2024年8月29日6:13

[更新]2024年8月29日

DALLE 2024-08-29 060748 - A futuristic illustration featuring a person typing on a holographic keyboard The text they type transforms into a vibrant colorful 3D video emergin - innovaTopia

清華大学とZhipu AIの研究者らが、オープンソースのテキスト生成ビデオAIモデル「CogVideoX」を発表した。このモデルは、Runway、Luma AI、Pika Labsなどのスタートアップが主導するAI動画生成の分野に新たな競争をもたらす可能性がある。

CogVideoXは、テキストプロンプトから最長6秒間の高品質で一貫性のあるビデオを生成できる。研究者らによると、このモデルはVideoCrafter-2.0やOpenSoraなどの競合モデルを複数の指標で上回る性能を示している。

モデルの中核となるCogVideoX-5Bは50億のパラメータを持ち、720×480ピクセルの解像度で8フレーム/秒のビデオを生成する。

研究チームは、3D Variational Autoencoder (VAE)の実装やテキストとビデオの整合性を向上させる「エキスパートトランスフォーマー」の開発など、複数の技術革新を通じてCogVideoXの性能を実現した。

CogVideoXのコードとモデルの重みが公開されたことで、これまで資金力のあるテクノロジー企業のみが独占していた技術が、世界中の開発者にアクセス可能になった。この動きは、AI生成ビデオの進歩を加速させる可能性がある。

from:This new open-source AI, CogVideoX, could change how we create videos forever

【編集部解説】

CogVideoXの登場は、AI動画生成技術の民主化という点で大きな意味を持っています。これまでAI動画生成は、Runway、Luma AI、Pika Labsなどの一部のスタートアップ企業が主導してきた分野でした。しかし、CogVideoXのようなオープンソースモデルの登場により、世界中の開発者がこの先端技術にアクセスできるようになりました。

CogVideoXの特筆すべき点は、テキストプロンプトから最長6秒間の高品質で一貫性のあるビデオを生成できる能力です。720×480ピクセルの解像度で8フレーム/秒のビデオを生成するCogVideoX-5Bは、50億のパラメータを持つ強力なモデルです。

このモデルの開発には、3D Variational Autoencoder (VAE)の実装や「エキスパートトランスフォーマー」の開発など、複数の技術革新が盛り込まれています。これらの技術により、テキストとビデオの整合性が向上し、より高品質な動画生成が可能になりました。

CogVideoXのオープンソース化は、AI技術の発展に大きな影響を与える可能性があります。これまで資金力のある大企業のみが独占していた技術が、個人の開発者や小規模な企業にも手の届くものになったのです。これにより、AI動画生成の分野でイノベーションが加速する可能性があります。

一方で、このような強力な技術の普及には潜在的なリスクも存在します。例えば、ディープフェイクや誤解を招くコンテンツの作成に悪用される可能性があります。そのため、技術の発展と並行して、倫理的な使用ガイドラインや法的規制の整備も重要になってくるでしょう。

長期的な視点で見ると、CogVideoXのような技術は、映像制作の在り方を根本から変える可能性があります。プロの映像制作者だけでなく、一般のユーザーも高品質な動画コンテンツを簡単に作成できるようになるかもしれません。これは、エンターテインメント、教育、マーケティングなど、様々な分野に大きな影響を与える可能性があります。

しかし、現時点でのCogVideoXには制限もあります。6秒という生成可能な動画の長さや、720×480ピクセルという解像度は、プロフェッショナルな用途には不十分かもしれません。また、生成された動画の品質や一貫性も、人間が制作した動画には及ばない部分があるでしょう。

【用語解説】

テキスト生成ビデオAIモデル: テキストの説明から動画を自動生成するAI技術。
3D Variational Autoencoder (VAE): 動画データを効率的に圧縮・再構成する技術。
エキスパートトランスフォーマー: テキストと動画の情報をより効果的に結びつける技術。

【参考リンク】

Zhipu AI (智谱AI)（外部）
CogVideoXを開発した中国のAI企業。大規模言語モデルや画像生成AIなど、様々なAI技術を研究・開発しています。
Runway（外部）
AIを活用した創造的なツールを提供する企業。動画生成や編集、画像生成などの機能を提供しています。
Pika Labs（外部）
AIを使った動画生成ツールを開発するスタートアップ企業。テキストから短い動画を生成する技術を提供しています。

【関連記事】

AI（人工知能）ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧