Last Updated on 2024-10-09 06:19 by admin
from Google’s new VideoPoet multimodal AI video generation model looks incredible.
Google Researchのチームが新しいAIビデオ生成モデル「VideoPoet」を発表しました。これは、従来の画像モデルに基づくビデオ生成AIとは異なり、大規模言語モデル(LLM)を使用しており、270百万のビデオと10億以上のテキストと画像のペアを用いて事前学習を行っています。VideoPoetは、より長く、より高品質で、より一貫した動きを持つクリップを生成することができ、カメラの動きや視覚的なスタイルのシミュレーション、新しいオーディオの生成など、幅広い機能を提供します。Google Researchによる調査では、人間の評価者がVideoPoetによって生成されたクリップを他のモデルよりも優れていると評価しました。現在、VideoPoetは一般公開されていませんが、将来的にはテキストからオーディオ、オーディオからビデオへの変換など、「any-to-any」生成タスクをサポートすることを目指しています。