Google DeepMindが2025年8月5日、AIワールドモデルの新バージョン「Genie 3」をリリースした。このモデルはユーザーやAIエージェントがリアルタイムでインタラクション可能な3D環境を生成する。
従来のGenie 2では10-20秒のインタラクションが限界だったが、Genie 3では数分間の継続的なインタラクションが可能になった。
Genie 3は約1分間、空間を視覚的記憶に保持でき、ユーザーが目を離した物体の位置を記憶する。解像度は720p、フレームレートは24fpsで動作する。プロンプトを使用して天候条件の変更や新キャラクターの追加といった「プロンプト可能なワールドイベント」機能も搭載している。現在は学者とクリエイターの小集団を対象とした限定的な研究プレビューとして提供されている。Googleは将来的に追加のテスターへの提供を検討している。
From:Google’s new AI model creates video game worlds in real time
【編集部解説】
技術的な革新性について
Genie 3が画期的なのは、従来のワールドモデルの制約を大幅に突破した点です。前世代のGenie 2では10-20秒という極めて短い交流時間でしたが、Genie 3では数分間の継続的インタラクションが可能になりました。これは従来の「デモンストレーション」レベルから「実用可能性」のレベルへと大きく前進したことを意味します。
さらに注目すべきは、ハードコーディングされた物理エンジンを使わずに、モデル自身が物理法則を学習する仕組みです。これにより、ガラスがテーブルの端から落ちそうな状況や、落下物を避ける動作など、人間が直感的に理解する物理現象をAIが再現できるようになっています。
記憶機能の意義
約1分間の視覚記憶機能は、デジタル世界における「持続性」を実現する重要な技術です。ユーザーが目を離した壁のペンキや黒板の文字が同じ場所に残っているという機能は、一見単純に見えますが、AIが生成する仮想世界に「現実感」をもたらす決定的な要素といえます。これまでのAI生成コンテンツでは、視点を変えるたびに世界が変化してしまうという根本的な問題がありました。
AGI(汎用人工知能)への道筋
DeepMindの研究者たちは、Genie 3をAGI実現のための重要なステップと位置づけています。その理由は、AI エージェントが無限の多様性を持つシミュレーション環境で訓練できるようになることです。現実世界のデータが枯渇しつつある中、合成データを用いたAI訓練の重要性が高まっており、Genie 3はその解決策の一つとして期待されています。
潜在的なリスクと制限
現段階では、限定的な研究プレビューとして学者とクリエイターの小集団にのみ提供されています。これは安全性への配慮を示していますが、同時に技術的制限もあります。エージェントの行動は制限されており、複数エージェント間のシミュレーションは信頼性が低く、読みやすいテキストの生成にも課題があります。
産業への影響
教育分野では、従来のVRコンテンツ制作の高いコストと複雑さが普及の障壁でしたが、Genie 3により教師が簡単に3D教育環境を作成できる可能性があります。ゲーム開発においても、従来の手作業による3Dアセット制作から、プロンプトベースの即座の世界生成への転換が期待されます。
競争環境と将来性
この技術は、OpenAIのSoraや他社の動画生成技術との競争激化を示しています。しかし、Genie 3の真の価値は単なる動画生成ではなく、リアルタイムでインタラクティブな3D環境の創造にあります。これは従来の映像制作の概念を根本から変える可能性を秘めています。
今後数年間で、この技術がどの程度まで実用化され、どのような新しい産業やビジネスモデルを生み出すかが注目されます。同時に、AI生成コンテンツの真偽判定や著作権問題など、新たな課題への対処も重要になってくるでしょう。
【用語解説】
ワールドモデル:AIが環境や世界の物理法則を学習・シミュレートするAIシステム。教育、エンターテインメント、ロボットやAIエージェントの訓練目的で仮想環境を生成する。従来の手作りゲーム環境とは異なり、すべてAIによって動的に生成される。
AGI(汎用人工知能):Artificial General Intelligenceの略。人間レベルの知能を持ち、様々な分野の課題を人間と同等以上に解決できる人工知能。現在のAIは特定分野に特化しているが、AGIは汎用的な知能を目指す。
フレームレート:1秒間に表示される静止画像(フレーム)の数。fps(frames per second)で表記される。Genie 3の24fpsは映画と同等の滑らかさを実現している。
プロンプト可能なワールドイベント:テキスト入力によって生成された世界の状況や環境を動的に変更できる機能。天候の変化、新キャラクターの追加など、リアルタイムで世界を編集できる。
視覚記憶機能:AIが一度生成したオブジェクトや環境の詳細を記憶し、ユーザーが視点を移した後も同じ状態で再現する技術。壁のペンキや黒板の文字などが移動後も同じ場所に残る。
【参考リンク】
Google DeepMind(外部)Google傘下のAI研究組織。AlphaGo、AlphaFoldなどの革新的AI技術を開発し、現在はGenie 3をはじめとする次世代AI技術の研究開発を行っている英米系AI研究所。
OpenAI Sora(外部)OpenAIが開発したテキストから動画を生成するAI。最大20秒、1080p解像度の動画生成が可能。Genie 3と競合する動画生成技術として注目されている。
【参考動画】
【参考記事】
Google DeepMindの新しいAIモデル「Genie 3」発表内容まとめ(外部)日本語による技術解説記事。Genie 3の基本概念から応用分野まで、わかりやすく整理されている。物理エンジンを明示的にプログラムせず、Webデータから世界のルールを学習する仕組みについて詳述。
Genie 3: A new frontier for world models(外部)Google DeepMind公式ブログによる技術発表記事。Genie 3の詳細な技術仕様や実際のデモンストレーション動画を含む公式解説。
AIは「見る」から「遊ぶ」へ!GoogleのGenie 3が示す未来(外部)ワールドモデルの概念を分かりやすく解説し、Genie 3の技術的特徴や将来性について日本語で詳しく説明している記事。
【編集部後記】
Genie 3の登場により、私たちが想像していた「創作」の概念が大きく変わろうとしています。プログラミングや3Dモデリングの知識がなくても、言葉だけで立体的な世界を生み出せる時代が目前に迫っているのです。
みなさんは、もしこの技術が一般開放されたら、どんな世界を作ってみたいでしょうか?教育現場での活用、ゲーム制作への影響、あるいは新しい表現手段としての可能性など、様々な角度から想像してみてください。一方で、AI生成コンテンツが溢れる未来に対する不安もあるかもしれません。
この技術が社会に与える影響について、ぜひコメント欄でご意見をお聞かせください。私たち編集部も、読者のみなさんと一緒に考えていきたいと思います。