最新ニュース一覧

人気のカテゴリ


Alibaba研究所、写真から話す動画を生成するAI「EMO」開発!

Alibaba研究所、写真から話す動画を生成するAI「EMO」開発! - innovaTopia - (イノベトピア)

Last Updated on 2024-06-14 08:29 by 門倉 朋宏

Alibabaの知能計算研究所の研究者たちは、「EMO」と呼ばれる新しい人工知能システムを開発した。このシステムは、一枚の肖像写真からその人が話したり歌ったりするリアルな動画を生成できる。EMOは、提供された音声トラックのニュアンスに密接に合致する流動的で表現豊かな顔の動きと頭のポーズを作り出すことができる。これは、音声駆動のトーキングヘッドビデオ生成の分野での大きな進歩である。

EMOシステムは、リアルな合成画像を生成する能力が非常に高いとされる拡散モデルというAI技術を使用している。研究者たちは、スピーチ、映画、テレビ番組、歌唱パフォーマンスからキュレートされた250時間以上のトーキングヘッドビデオのデータセットでモデルを訓練した。EMOは、3D顔モデルやブレンドシェイプを使用する従来の方法に頼らず、音声波形を直接ビデオフレームに変換する。これにより、自然な話し言葉に関連する微妙な動きや個性的な特徴を捉えることができる。

論文で述べられた実験によると、EMOはビデオ品質、アイデンティティの保存、表現力の測定基準において、既存の最先端の方法を大幅に上回る。また、EMOによって生成されたビデオは、他のシステムによって生成されたものよりも自然で感情的であるとするユーザースタディも実施された。

さらに、EMOは会話ビデオだけでなく、適切な口の形とボーカルに同期した表情豊かな顔の表現を備えた歌唱ポートレートもアニメーション化できる。このシステムは、入力音声の長さに基づいて任意の期間のビデオを生成することができる。しかし、この技術が人々を無断で模倣したり、誤情報を広めるために悪用される可能性に関する倫理的な懸念が残る。研究者たちは、合成ビデオを検出する方法を探求する計画である。

【ニュース解説】

Alibabaの知能計算研究所が開発した「EMO」という新しい人工知能システムは、一枚の肖像写真からその人が話したり歌ったりするリアルな動画を生成することができます。この技術は、音声に合わせて流動的で表現豊かな顔の動きや頭のポーズを作り出すことが可能で、これまでの音声駆動のトーキングヘッドビデオ生成の分野において大きな進歩を遂げています。

EMOシステムは、拡散モデルというAI技術を用いており、これはリアルな合成画像を生成する能力が非常に高いとされています。このモデルは、スピーチ、映画、テレビ番組、歌唱パフォーマンスなどから集められた250時間以上のトーキングヘッドビデオのデータセットで訓練されました。従来の3D顔モデルやブレンドシェイプを使用する方法とは異なり、EMOは音声波形を直接ビデオフレームに変換することで、自然な話し言葉に関連する微妙な動きや個性的な特徴を捉えることができます。

実験結果によると、EMOはビデオ品質、アイデンティティの保存、表現力の面で既存の最先端技術を大幅に上回っています。また、EMOによって生成されたビデオは、他のシステムよりも自然で感情的であると評価されています。

この技術は、会話ビデオだけでなく、歌唱ビデオの生成にも応用可能で、適切な口の形とボーカルに同期した表情豊かな顔の表現を実現します。入力音声の長さに基づいて任意の期間のビデオを生成することができるため、様々な用途での活用が期待されます。

しかし、このような技術が人々を無断で模倣したり、誤情報を広めるために悪用される可能性については、倫理的な懸念が残ります。研究者たちは、合成ビデオを検出する方法を探求する計画であり、この技術の安全な使用とその潜在的なリスクの管理に向けた取り組みが重要になってきます。

将来的には、この技術によってパーソナライズされたビデオコンテンツの生成が容易になる一方で、ディープフェイクなどの誤情報の拡散に対する警戒も必要です。また、この技術の発展は、エンターテイメント業界や教育、コミュニケーションの分野で新たな可能性を開くことになるでしょう。同時に、個人のプライバシーや著作権などの法的・倫理的問題に対する規制やガイドラインの整備も求められます。

from Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos.


“Alibaba研究所、写真から話す動画を生成するAI「EMO」開発!” への1件のコメント

  1. 佐藤 智恵のアバター
    佐藤 智恵

    Alibabaの知能計算研究所が開発した「EMO」という新しい人工知能システムについてのニュースは、私たちが目の当たりにしているテクノロジーの進化のスピードを象徴しています。音声に合わせたリアルな動画生成というこの技術は、その表現力と創造性において、文学や映画といった芸術分野においても革新的な影響を与える可能性があります。特に、私のような小説家にとって、キャラクターを視覚的に表現する新しい方法として活用できるかもしれません。映画化された作品のキャラクターをよりリアルに、そして視聴者にとって身近な存在として描くことが可能になるかもしれないのです。

    しかし、この技術の進歩には、同時に懸念材料も伴います。特に、無断で人物を模倣したり、誤情報を広めるために悪用される可能性は、私たちが深刻に考えなければならない課題です。この種の技術が提供する可能性は無限大ですが、それによって生じる倫理的問題や法的な課題に対しては、しっかりとしたルールやガイドラインを設け、管理していく必要があります。特に、著作権やプライバシーの保護、誤情報の拡散防止といった点では、技術の進歩に伴い、常に更新される対策が

読み込み中…
読み込み中…