GoogleのAI動画生成「Veo 3.1」発表。音声合成・人物固定で「コントロール性」を強化、Sora 2と差別化

GoogleのAI動画生成「Veo 3.1」発表。音声合成・人物固定で「コントロール性」を強化、Sora 2と差別化 - innovaTopia - (イノベトピア)

単なるテキストから、まるで映画のワンシーンのような動画が生まれる。Googleが発表した最新AI「Veo 3.1」は、そんな未来をさらに手繰り寄せた。

Googleは2025年10月、AI動画生成モデル「Veo 3.1」を発表した。これは同年5月発表のVeoの後継で、AI作成プラットフォーム「Flow」や開発者向けの「Gemini API」、「Vertex」を通じて利用できる。

Veo 3.1はテキスト、画像、または動画のプロンプトを基に動画を生成し、その際に最大3枚の参照画像を用いてスタイルやキャラクターの一貫性を保つことが可能だ。Flowでは過去5ヶ月で2億7,500万本の動画が生成された。全ての動画にはAI生成を示す識別子「SynthID」が埋め込まれる。OpenAIの「Sora」が競合となる。

From: 文献リンクGoogle releases new AI video model Veo 3.1 in Flow and API: What it means for

【編集部解説】

Googleから、新たなAI動画生成モデル「Veo 3.1」が発表されました。単に美しい映像を作るだけでなく、クリエイターが意図した通りの物語を紡ぐための「コントロール機能」を大幅に強化してきた点が、今回の最大の注目ポイントです。OpenAIの「Sora 2」が現実と見紛うほどのリアリズムで世界を驚かせた一方、Googleはより「実用的」な進化の道を選んだと言えるでしょう。

今回のアップデートで特に重要なのが、音声との連携です。これまでのAI動画生成では、映像を作ってから別途ナレーションや効果音を追加する必要がありました。しかしVeo 3.1では、映像と同時にセリフや背景音を生成できるようになったのです。これにより、映像と音声が一体となった、より自然で感情豊かなストーリーテリングが可能になります。

また、キャラクターや作風の一貫性を保つ機能も強化されました。最大3枚の「参照画像」をAIに渡すことで、同じキャラクターが別のシーンでも同じ姿で登場したり、特定のアーティストのような画風を動画全体で統一したりすることが容易になります。これは、シリーズものの映像や、ブランドイメージが重要な企業広告など、プロフェッショナルな現場での活用を大きく前進させる機能です。

Veo 3.1は、Googleが提供するAI制作ツール「Flow」や、開発者向けの「Gemini API」、企業向けの「Vertex AI」といった様々なプラットフォームで利用できます。これは、個人のクリエイターから大企業の開発チームまで、誰もがそれぞれの環境で高度な動画生成技術の恩恵を受けられるようになることを意味します。特に、動画を生成した後に特定のモノを「挿入」したり「削除」したりできる編集機能は、AI動画制作のプロセスを根本から変える可能性を秘めています。まさに、AIとの対話を通じて映像を”創り上げていく”時代の到来を予感させます。

もちろん、課題も存在します。これほどリアルな動画が簡単に作れるようになると、フェイクニュースや偽情報の拡散といったリスクは常に付きまといます。Googleは対策として、AIが生成した動画すべてに「SynthID」と呼ばれる目に見えない電子透かしを埋め込み、見分ける仕組みを導入していますが、私たち利用者の側にも、情報を正しく見極めるリテラシーがこれまで以上に求められるでしょう。

また、著作権の問題もより複雑になります。AIが学習するデータに既存の著作物が含まれる可能性は否定できず、クリエイターが自身の作品をAIで再創造しようとしても、意図しない形でしか出力されないというジレンマも報告されています。

「リアリズム」を追求するSoraと、「コントロール性」を重視するVeo。AI動画生成の覇権争いは、これからますます面白くなっていきそうです。この技術は、単に映像制作を効率化するだけでなく、私たちの創造性を拡張し、これまで誰も見たことのない物語を生み出すための強力なパートナーとなるでしょう。「Tech for Human Evolution」を掲げる私たちにとって、この進化の最前線から目が離せません。

【用語解説】

AI動画生成モデル
テキストや画像などの指示を基に、AIが自動で動画を生成する技術である。GoogleのVeoやOpenAIのSoraなどが代表的なモデルとして知られている。

参照画像
AIで動画を生成する際に、キャラクターの容姿や全体の画風などを特定のスタイルに統一するために使用する画像のことである。Veo 3.1では最大3枚まで指定可能だ。

音声合成
AIが映像を生成するのと同時に、その内容に合ったセリフやBGM、効果音などを自動で作り出す技術である。これにより、映像と音声が自然に同期したコンテンツ制作が可能となる。

【参考リンク】

Google(外部)
GoogleのAIに関する取り組みや最新情報を発信する公式サイト。AIの倫理原則や社会貢献への応用事例も紹介されている。

Google DeepMind(外部)
GoogleのAI研究開発部門。VeoやGeminiなど最先端のAIモデル開発を主導している。

Veo(外部)
Google DeepMindが開発したAI動画生成モデル。テキストや画像から高品質で物理法則に忠実な動画を生成する能力を持つ。

Flow(外部)
Googleが提供するAI映像制作ツール。Veoを搭載し、クリエイターが直感的な操作で動画の生成や編集を行えるプラットフォーム。

Gemini API(外部)
開発者がVeoなどのGoogle製AIモデルを自身のアプリに組み込むためのAPI。多言語・マルチモーダルに対応している。

Vertex AI(外部)
Google Cloudが提供する企業向けの統合AI開発プラットフォーム。AIモデルの構築からデプロイまでを一貫して管理できる。

SynthID(外部)
AI生成コンテンツを識別するための電子透かし技術。人間の目には見えない形でコンテンツに情報を埋め込む。

【参考動画】

【参考記事】

Introducing Veo 3.1 and advanced capabilities in Flow(外部)
Google公式ブログによるVeo 3.1の発表記事。音声生成の統合やスタイル制御など、新機能の詳細が解説されている。

Google’s Veo 3.1 Aims to Tame AI Video Chaos—But Cracks Still Show(外部)
Veo 3.1を批判的な視点で報じる記事。コントロール性を評価しつつ、偽情報や著作権など残された課題を指摘している。

【編集部後記】

「AIが作った動画」と聞くと、どこか無機質で、決まったパターンしかないと思っていませんか?GoogleのVeo 3.1は、そのイメージを大きく変えるかもしれません。

今回の進化のポイントは「コントロール」です。これは、AIに「お任せ」で動画を作るのではなく、私たちが監督のように細かく指示を出し、意図した通りの物語をAIと一緒に創り上げていく時代の始まりを意味します。

もしあなたがこの技術を手に入れたら、どんな物語を紡いでみたいですか?過去の思い出の再現、空想の世界の映像化、あるいはビジネスの新しいアイデアでしょうか。この技術は、私たちの創造性をどこまで拡張してくれるのか、一緒に探求していきましょう。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…
advertisements
読み込み中…