Last Updated on 2024-06-06 16:27 by 門倉 朋宏
Googleの研究者たちは、単一の静止画から人物が話したり、ジェスチャーをしたり、動いたりするリアルなビデオを生成できる新しい人工知能システム「VLOGGER」を開発した。この技術は、高度な機械学習モデルを使用して、驚くほどリアルな映像を合成し、潜在的な応用範囲を広げるとともに、ディープフェイクや誤情報に関する懸念を提起している。
VLOGGERは、人物の写真と音声クリップを入力として受け取り、その音声に合わせて人物が話す様子や対応する顔の表情、頭の動き、手のジェスチャーを示すビデオを出力する。ビデオは完璧ではなく、いくつかのアーティファクトが存在するが、静止画像をアニメーション化する能力において顕著な進歩を表している。
このAIモデルは、拡散モデルと呼ばれる機械学習モデルの一種を活用し、テキスト記述から非常にリアルな画像を生成することで最近顕著な成果を示している。ビデオ領域にこれらを拡張し、新たな大規模データセットでトレーニングすることで、写真をリアルな方法で動かすAIシステムを作成した。
VLOGGERの潜在的な応用には、他の言語への自動ダビング、ビデオの欠落フレームの編集や補完、単一の写真からの人物の完全なビデオの作成などがある。また、ディープフェイクの作成など、悪用の可能性も指摘されている。VLOGGERはまだ限界があり、生成されるビデオは比較的短く、背景は静的であり、人物は3D環境内を動き回ることはない。しかし、画像品質、アイデンティティの保存、時間的一貫性において、他の最先端技術を上回ることが報告されている。
【ニュース解説】
Googleの研究者たちが開発した「VLOGGER」という新しい人工知能システムは、単一の静止画から人物が話したり、ジェスチャーをしたり、動いたりするリアルなビデオを生成することができます。この技術は、高度な機械学習モデル、特に拡散モデルを使用して、非常にリアルな映像を合成することが可能です。これにより、さまざまな応用が可能になる一方で、ディープフェイクや誤情報の拡散といった問題も引き起こす可能性があります。
VLOGGERは、人物の写真と音声クリップを入力として使用し、その音声に合わせて人物が話す様子や顔の表情、頭の動き、手のジェスチャーを示すビデオを出力します。この技術は、以前の方法と比較して、特定の人物ごとにトレーニングする必要がなく、顔の検出や切り取りに依存せず、完全な画像(顔や唇だけでなく)を生成し、多様なシナリオを考慮する点で進歩しています。
このAIモデルの開発には、MENTORと呼ばれる新しい大規模データセットが使用されました。このデータセットには、800,000以上の多様なアイデンティティと2,200時間以上のビデオが含まれており、人物の様々な民族性、年齢、服装、ポーズ、環境を偏りなく学習することができます。
VLOGGERの応用例としては、ビデオの自動ダビング、ビデオの欠落フレームの編集や補完、単一の写真から人物の完全なビデオの作成などが挙げられます。これにより、俳優が自分自身の詳細な3Dモデルをライセンスし、新しいパフォーマンスを生成することや、仮想現実やゲームでのフォトリアルなアバターの作成、AI駆動のバーチャルアシスタントやチャットボットの開発などが可能になります。
しかし、この技術はディープフェイクの作成など、悪用される可能性もあります。AIによって生成されたビデオがよりリアルになり、作成が容易になるにつれて、誤情報やデジタル偽造の問題が悪化する可能性があります。
VLOGGERはまだ完璧ではなく、生成されるビデオは比較的短く、背景は静的で、人物は3D環境内を動き回ることはありません。また、人物の態度や話し方が完全にリアルなものとは区別がつかないわけではありません。しかし、画像品質、アイデンティティの保存、時間的一貫性において、他の最先端技術を上回ることが報告されています。
このようなAI生成メディアの進歩は、私たちがリアルな人物とコンピュータープログラムによって生成された人物を区別することが難しくなる未来を示唆しています。VLOGGERは、人工知能の急速な進歩と、リアルとフェイクを区別する上で直面する増大する課題の両方を示す、強力なデモンストレーションです。
from Google researchers unveil ‘VLOGGER’, an AI that can bring still photos to life.
“Google研究者が開発、写真からリアル動画生成のAI「VLOGGER」公開” への1件のコメント
Googleが開発した「VLOGGER」という人工知能システムは、まさに芸術と科学技術の融合とも言える進歩であると感じます。私の小説の中で描く、遠い未来の科学技術が現実のものとなりつつあるように思えて、非常に興奮します。この技術により、単一の静止画からリアルなビデオを生成できることは、映画製作やアニメーション制作において革新的な可能性を秘めています。特に私の作品が映画化される際に、故人となった俳優をデジタルで蘇らせたり、貴重な歴史的人物をスクリーン上で生き生きと表現することが可能になるかもしれません。
しかし、この技術がディープフェイクや誤情報の拡散に使われる潜在的なリスクも無視できません。現代社会では、既に偽情報やデジタル偽造による問題が頻発しており、VLOGGERのような技術がその火に油を注ぐ恐れがあります。私たちは、技術進歩の恩恵を享受する一方で、その負の側面にも目を向け、適切な規制や倫理的ガイドラインの確立が急務であると考えます。
また、この技術がもたらす文化的、社会的影響についても深く考察する必要があります。映画やアートの分野