「会話するだけで動画が作れる」——そんな未来が、2026年5月20日に現実のものとなりました。Googleが発表した新AIモデル「Gemini Omni」は、画像・音声・動画・テキストを自由に組み合わせて入力するだけで、物理法則まで理解した高品質な動画を生み出します。しかも編集は自然な日本語で「ここのカメラアングルを変えて」と指示するだけ。GeminiアプリやYouTube Shortsで本日から順次使えるようになる、この新世代モデルの全貌に迫ります。
Googleは2026年5月20日、新モデルファミリー「Gemini Omni」を発表した。発表者はGoogle DeepMind CTO兼Google Chief AI Architectのコーレイ・カヴクチュオール氏。
第一弾としてGemini Omni Flashを、Geminiアプリ、Google Flow、YouTube Shortsで順次提供する。画像・音声・動画・テキストを組み合わせた入力から動画を生成し、自然言語で編集できる。自分の声を使うアバター機能も提供する。生成された動画には電子透かしSynthIDが埋め込まれ、Geminiアプリ、Gemini in Chrome、Google検索で確認できる。
本日より世界中のGoogle AI Plus、Pro、Ultraユーザーを対象に提供開始。YouTube ShortsおよびYouTube Createアプリでは今週から無料で順次提供する。数週間以内にAPI経由で開発者・企業向けにも提供開始予定。
From:
Gemini Omni を発表
【編集部解説】
戦略の節目:Geminiの知能と生成メディアモデルの統合
百聞は一見にしかず——というわけで、まずはGemini Omni Flashで実際に生成した動画をご覧ください。プロンプトはたった一文、「ノートパソコンで仕事中、三毛猫が構ってほしくて手元を邪魔してくるので、仕事をあきらめて猫と一緒に踊る」だけ。撮影機材も、編集ソフトも、絵コンテも使っていません。みなさんもクスッと笑ってしまうような、ちょっと愛らしい日常の一コマがそのまま映像として立ち上がってくる感覚は、これまでのAI動画生成とは明らかに違う段階に入ったことを示しています。
今回の発表で押さえておきたいのは、Gemini Omniが単なる動画生成ツールの追加ではなく、Geminiの推論能力と生成メディアモデルを統合する新たな系統の登場であるという点です。Googleには動画生成専用モデルVeoも存在し続けていますが、Omniは「Geminiの知能」と「生成メディア技術」を一体化した設計として位置付けられています。テキスト・画像・音声・動画を扱えるネイティブなマルチモーダル設計は、モダリティ間の境界を取り払う方向性を象徴しています。
発表の舞台はGoogle I/O 2026で、Alphabet CEOのサンダー・ピチャイ氏がOmniを「あらゆる入力からあらゆるものを生成できる新モデル」として紹介しました。CNBCや9to5Googleなど海外メディアは、Omniを「ワールドモデル」の文脈に連なるモデルと特徴付けています。これは物理環境をシミュレートし、ユーザーの行動に応じて次に何が起きるかを予測するという発想で、Google DeepMindが「Genie 3」など汎用ワールドモデルとして発表してきた研究領域と地続きの方向性です。
10秒制限の意味と競合との位置関係
機能面の実態にも注目です。Gemini Omni Flashが生成できる動画は現時点で最大10秒。TechCrunchによると、これはモデルの技術的制約ではなく、より多くの利用者に届けるための判断と、現時点で長尺を望む利用者は少ないとの想定に基づく「展開上の判断」だと、Google DeepMindのプロダクト管理ディレクター ニコル・ブリヒトヴァ氏が明言しています。同氏は将来、より高性能なOmni Proの投入も計画されているとコメントしており、本格的な長尺生成は次の段階を待つことになります。
競合状況も冷静に押さえておきましょう。Artificial Analysisが公開する動画生成AIのリーダーボードでは、音声付きText-to-Videoのカテゴリでは、ByteDance系のDreamina Seedance 2.0が首位に位置しています(音声なしカテゴリでは他のモデルが首位)。中国市場では、KuaishouのKlingが月間約1,200万のアクティブユーザーを抱え、年換算売上が約2.4億ドル規模に達したとされ、確かな存在感を見せています。Gemini Omni Flashはまだ公開ベンチマークに反映されていない段階で、純粋な生成品質での横並び比較は今後の課題と言えるでしょう。
Googleの優位性として注目すべきは「配信網」です。Search、Gemini、Flow、YouTubeという巨大な接点に組み込まれて出てくる事実こそ、後発に近いポジションを跳ね返す最大の差別化要素になりそうです。
利用者体験と責任あるAI開発
利用者にとって直感的に大きな変化となるのは、編集の操作感でしょう。専用ソフトのタイムラインやエフェクトパネルを操作する代わりに、対話だけで「ここのカメラアングルを変えて」「キャラクターをアニメ調にして」と指示できる。これは映像制作の参入障壁を大幅に下げる動きで、誰もが映像表現に手を伸ばせる時代の入口を開く一手と言えます。
一方で、リスク面の検討も欠かせません。自分の声と姿を使ったデジタルアバター機能は、本人確認や同意取得の仕組みが今後問われる領域です。TechCrunchによれば、Googleはオンボーディング時に本人が動画を録画し、特定の数字を読み上げるといった認証手順を設けているとされます。Googleが音声・会話の編集機能を「責任ある形で届けられるよう慎重にテスト中」と明言した点は注目に値します。リスクの高い機能の段階的提供を選んだ判断は、ディープフェイクをめぐる規制議論を踏まえた現実的な対応と評価できるでしょう。
透明性の担保として全動画にSynthID電子透かしが埋め込まれる仕様は、生成コンテンツとオリジナル映像の区別が困難になる時代に向けた重要な布石です。GeminiアプリやGoogle検索から判定できる仕組みは、見る側のリテラシー負荷を下げる効果も期待できます。ただし、現状ではSynthIDによる検証はGoogle生成物が主対象である点には留意が必要で、Googleが取り組むC2PAコンテンツクレデンシャルの拡大も含め、業界横断の検証規格の確立が中期的な論点となります。
長期的な視点:物理法則を理解するAIの先
長期的な視点では、「物理法則を理解するAI」が動画生成の枠を超えて、シミュレーションや教育、さらにはロボティクスへ波及していく可能性が見えてきます。複雑なアイデアを誰もが映像化できるという普及効果と、社会全体の映像リテラシーが問われるという緊張関係。この両面に同時に向き合うことが、次のフェーズで私たち全員に問われていく課題になりそうです。
【用語解説】
ワールドモデル
現実世界の物理的環境をAI内部でシミュレートし、ユーザーの入力や行動に応じて「次に何が起きるか」を予測できるモデルを指す。ロボティクスやゲーム開発の分野で長く研究されてきた概念で、Google DeepMindも従来から重点的に取り組んできた領域である。
マルチモーダル
テキスト・画像・音声・動画など、複数の異なる形式の情報を同時に扱えるAIの性質を指す。単一の入力形式に縛られず、形式を横断して推論できる点が特徴である。
電子透かし(デジタルウォーターマーク)
人間の目や耳では知覚できない形で画像・音声・動画などにデータを埋め込み、後からコンテンツの出所や生成元を検証できるようにする技術。AI生成物の透明性確保の手段として近年急速に重要性を増している。
ディープフェイク
AIを使い、実在の人物が実際には発していない言葉や行動を作り出す、本物と見分けが難しい合成映像・音声の総称。詐欺・なりすまし・偽情報拡散のリスクが世界的に議論されている。
API(Application Programming Interface)
あるソフトウェアの機能を別のソフトウェアから呼び出して利用するための窓口・規約のこと。Gemini Omni APIが公開されれば、開発者は自社サービスにOmniの動画生成・編集機能を組み込めるようになる。
Google I/O
Googleが毎年開催する開発者向けの年次カンファレンス。新製品・新技術が発表される主要な場であり、今年は2026年5月19日(米国時間)に開催された。
【参考リンク】
Gemini Omni 製品ページ(Google DeepMind)(外部)
Gemini Omniの公式製品紹介ページで、プロンプト例や生成サンプル、SynthIDとC2PAによる透明性確保の方針が掲載されている。
Gemini Omni Flash モデルカード(外部)
Gemini Omni Flashのモデル仕様、トレーニング、評価結果、安全対策などを記載する開発者向け公式技術文書である。
Google DeepMind 公式サイト(外部)
GoogleのAI研究組織の公式サイト。Geminiシリーズの開発元として、最先端モデルや研究成果を公開している。
Gemini 公式サイト(外部)
Geminiアプリの公式入口。AIモデルとの対話、画像・動画生成、各種編集機能などに直接アクセスできる窓口である。
Google Flow(Google Labs)(外部)
Google LabsのAI映像制作スタジオで、Gemini Omniを搭載し、対話形式での動画生成や編集を可能にする。
SynthID(Google DeepMind)(外部)
AI生成コンテンツに不可視の電子透かしを埋め込み、生成元の検証を可能にするGoogle DeepMindの技術紹介ページ。
Genie 3: A new frontier for world models(Google DeepMind)(外部)
Google DeepMindが汎用ワールドモデルとして発表したGenie 3の公式紹介ページ。ワールドモデル研究の文脈を確認できる。
【参考動画】
Google DeepMindのメンバーがGemini Omniを紹介する公式動画である。プロダクト管理ディレクター ニコル・ブリヒトヴァ氏、リサーチエンジニア ガブ・バース=マロン氏らが登場する。
【参考記事】
Google’s Gemini Omni turns images, audio, and text into video — and that’s just the start(TechCrunch)(外部)
Gemini Omni Flashの動画長10秒制限が技術制約ではなく展開上の判断であると、ニコル・ブリヒトヴァ氏の発言を引用して解説。
Gemini Omni is a new family of AI models meant to ‘create anything’(The Verge)(外部)
Nano Bananaがこれまでに500億枚超の画像を生成した実績や、Omniファミリーの将来展開について詳細に解説した記事。
Text to Video Leaderboard(Artificial Analysis)(外部)
動画生成AIモデルの品質を独立して比較するリーダーボード。音声付き・音声なしカテゴリ別のランキングを公開している。
Google unveils AI model Gemini 3.5 and AI agent Gemini Spark(CNBC)(外部)
Gemini Omniを「ワールドモデル」として位置付け、Gemini 3.5 FlashやGemini Sparkとの関係を整理した報道。
How China’s Kling challenges Google’s Veo, OpenAI’s Sora(South China Morning Post)(外部)
KuaishouのKlingが月間約1,200万MAU、ARR約2.4億ドル規模に達したと報じる、中国動画生成AI市場の分析記事。
Gemini Omni, the ‘create anything’ model, starts today with lifelike video(9to5Google)(外部)
ワールドモデルとしての位置付けと、SynthIDとC2PA併用などの安全対策、Genieモデルとの系譜関係を解説している。
Google Launches Gemini Omni Video Model, but Holds Back Its Riskiest Feature(TechTimes)(外部)
Omni Pro計画や音声・会話編集機能の段階的提供など、リスク管理の側面に焦点を当てた記事である。
【関連記事】
Google×Xreal「Project Aura」年内発売へ
I/O 2026で示されたGoogleのARスマートグラス戦略。Xreal連携が年内本格始動する動きを解説する。
2026年5月20日 12:58
Google、Gemini搭載オーディオグラスを発表
Gentle MonsterとWarby Parkerが手掛ける2026年秋発売のGemini搭載オーディオグラスの全容。
2026年5月20日 12:21
Gemini 3.5 Flash発表|Shopify・Salesforce・Macquarie Bankも導入
I/O 2026で同時発表された主力モデル。Omniのベースとなる汎用Gemini系統の最新動向を伝える。
2026年5月20日 11:08
Google Antigravity 2.0発表 — I/O 2026でのエージェント主導開発
Gemini 3.5 Flashを搭載した開発者向けエージェント基盤。Omni APIの将来活用とも接続する。
2026年5月20日 10:31
Google I/O 2026、5月19日開幕─Gemini新版・Android XRグラス・Googlebookの注目点
本イベントの事前展望をまとめた直前記事。Omni発表前の文脈を押さえるのに最適である。
2026年5月18日 21:00
Google「Gemini Intelligence」発表で何が変わる?Android 17・新PC「Googlebook」
I/O 2026前哨戦で発表されたAndroidの「インテリジェンスシステム」化を解き明かす記事。
2026年5月13日 22:49
【編集部後記】
冒頭の動画、いかがでしたか?「仕事中に猫に邪魔されて、結局一緒に踊る」——そんな、日常の中の小さな物語が一文から映像になる時代が来てしまいました。みなさんだったら、Gemini Omniにどんな場面を作ってもらいますか?大切な人に贈る思い出のワンシーンか、ずっと胸の中だけにあった夢のような風景か、それとも仕事のプレゼンを彩る一本か。
同時に、誰でも本物そっくりの動画を作れるということは、見る側の私たち一人ひとりにも「これは本物か」を考える眼が求められる時代の到来でもあります。一緒に、この新しい風景の歩き方を探っていけたらと思います。












