AIが「世界を生成する」時代が、静かに始まっています。テキストから画像を生み出すだけでなく、歩き回れる立体的な環境そのものをリアルタイムで構築する——そんな技術の最前線で、Googleが新たな一歩を踏み出しました。現実の街並みをAIが解釈し、まったく異なる時代・世界観へと変換する。それは単なるエンターテインメントを超えた、AIの学習と現実理解という深い問いに踏み込む試みでもあります。
2026年5月19日、GoogleはAIによるインタラクティブ環境生成システム「Project Genie」に、ストリートビュー(Google Street View)の映像を組み合わせた新機能を発表した。ユーザーはアメリカ国内の任意の場所を地図ピンで選択し、「砂漠」「石器時代」「海中世界」などのスタイルを適用することで、実在する場所をベースにしたAI生成の仮想世界を生成・探索できる。
Genieの核心はGoogleが「ワールドモデル」と呼ぶAIアーキテクチャにある。AIエージェントやロボットが自然にインタラクションできるデジタル環境をリアルタイムで構築する能力を持ち、これまでは架空の世界の生成にとどまっていた。今回のアップデートにより、ストリートビューの実世界データを「錨」としてシミュレーション空間を現実に接続することが可能になった。
Project GenieはGoogle AI Ultra(月額$200プラン)の加入者を対象にグローバルで順次提供が開始されており、Googleは引き続き実験的プロトタイプと位置づけている。
From:
Google’s Project Genie can now turn real Street View locations into AI worlds
【編集部解説】
今回の発表で最も注目すべきは、新機能そのものよりも、Googleがどのデータ資産を投入してきたかという点です。Project Genieに接続されたのは、20年間にわたって収集された2,800億枚以上のストリートビュー画像、110カ国、全7大陸という地球規模のビジュアルアーカイブです。
ストリートビューは2007年5月25日、米国数都市でひっそりと始まったサービスでした。撮影車両「Street View Car」やバックパック「Trekker」を背負った撮影者が地道に世界中を歩き、画像を撮り続けてきた。当時はせいぜい「ナビゲーションの便利機能」「現地を訪れる前の下見ツール」程度の位置づけでした。
それが今、生成AIにとっての最も希少な資源——「現実世界の網羅的な視覚データ」——として再評価されています。動画生成モデルがインターネット上の動画を吸い尽くしてもなお、特定の地点を多視点・経時的に撮影した整合的なデータセットは限られている。Googleが20年かけて積み上げてきたこの「歩いて撮った世界の写真集」が、ワールドモデル時代の競合優位性の源泉へと姿を変えつつあります。
「ワールドモデル」とは何か——動画生成との決定的な違い
ここで「ワールドモデル」という言葉を整理しておきます。OpenAIのSoraやGoogle自身のVeoのような動画生成AIは、入力に対して「結果としての映像」を出力します。観る側は受動的で、できあがった動画を変えることはできません。
一方ワールドモデルは、ユーザーやAIエージェントの操作入力を毎フレーム受け取り、その入力に応じて次の瞬間の世界を生成し続けます。Genie 3の場合、解像度は720p、フレームレートは24fps、数分間にわたって物体の位置や状態の一貫性を保つメモリ機能を備えています。WASDキーで歩き回り、振り返ったときに先ほどと同じ風景が広がっている——その「コヒーレンス(整合性)」が、動画生成との分水嶺です。
Genieの系譜を追うと、その進化スピードが見えてきます。
- 2024年3月:Genie 1(2Dプラットフォームゲーム生成)
- 2024年12月:Genie 2(初の3D環境、約10秒の一貫性)
- 2025年8月:Genie 3(最大数分の一貫性、720p/24fps)
- 2026年2月:Waymo World Model(Genie 3を自動運転向けに特化)
- 2026年5月:ストリートビューと連携(今回)
2年でテキストから2Dゲームを生成する段階から、現実の街角に錨づけられた3D環境を歩き回る段階まで到達したことになります。
Waymoとの本格接続——「現実に錨を下ろしたシミュレーション」が自動運転を変える
今回の発表の文脈を理解するには、3カ月前の動きを思い出す必要があります。2026年2月、WaymoはGenie 3をベースに自動運転シミュレーション専用に特化させた「Waymo World Model」を発表しました。
Waymoはすでに公道で約2億マイル(約3億2,000万km)の完全自律走行実績を持ちますが、それでも遭遇しないシナリオは無数にあります。竜巻、洪水で水没した道路、突然路上に現れる象——いわゆる「ロングテール」と呼ばれる稀少事象です。Waymo World Modelは、Genie 3の汎用的な世界知識を活用してこうした稀少事象を仮想空間で再現し、Waymo Driverを訓練する仕組みです。
ここで重要な指摘がDeepMindの研究者Jack Parker-Holderから示されています。従来のWaymoシミュレータは「車のドライバー視点」に閉じていたが、ストリートビューを組み込んだGenieは「人間視点」「ロボット視点」へと自由に切り替えられる。
これは些細な技術的差分ではありません。たとえばロンドンに配備されるロボットを訓練したいとき、ロンドンはほぼ曇りの日が多い都市です。しかし快晴の朝、ヴィクトリア朝建築の窓ガラスに突然光が反射してセンサーが眩む——そんな稀な状況をストリートビューを基にして人工的に生成し、事前に学習させられる。「実世界で起きうるが滅多に起きない瞬間」を意図的に作り出して訓練する、極めて実践的な手法です。
innovaTopiaでも先月、Waymoがロンドン公道で自律走行テストを開始した件を報じました(Waymo World Modelの背景解説を含む)。今回のストリートビューとの連携は、その流れの中で位置づけると見え方が変わってきます。ロボットや自動運転車を新しい都市に展開するたびに、その都市を仮想空間に再現して事前訓練する——という未来の運用モデルが、現実味を帯びてきました。
ストリートビューの戦略的価値が変わる
検索エンジンの時代、Googleの優位性はインデックス可能なWeb情報の網羅性でした。生成AIの時代、戦略の構成要素が静かに組み替えられつつあります。テキストデータが各社で奪い合いになる中、Googleが20年かけて独自に積み上げてきたデータが、にわかに別の意味を持ち始めているのです。
具体的には:
- ストリートビュー:2,800億枚以上の画像、110カ国、全7大陸の地表データ
- Google Maps:店舗、ランドマーク、道路ネットワーク、ユーザー投稿の口コミと写真
- Google Earth:衛星画像、3D都市モデル
- YouTube:無数の視点から撮影された動画(動きと音声を含む)
これらは、生成AIに「世界はこうあるべき」という事前知識を植え付けるための、極めて強力な教師データになります。OpenAIやAnthropicは大量のテキストを学習させて言語モデルを作りましたが、現実世界に存在する物体・場所・関係性の知識をスケールで持っている企業は、GoogleとMeta(Facebook/Instagram経由)を除けばわずかです。
実際、ストリートビューデータは2026年3月にも別の用途で商用化が進められています。Street View Insightsは通信事業者や公益事業者向けに、現地調査なしで電柱・通信機器の点検を可能にする商用サービスとして2026年3月25日に一般提供(Generally Available)を発表しました。「便利な地図機能」だったストリートビューが、ワールドモデル(Genie)・インフラ管理(Street View Insights)・地理空間AI(Imagery Insights+Gemini)という複数の事業の基盤レイヤーへと変貌しつつあります。
個人にとっての意味——「世界の再解釈」がリビングルームに来る
最後に、技術論から少し離れて、これが個人の日常にどう降りてくるかを考えてみます。
自宅の前の通りを、1920年代風モノクロ世界に変換して歩く。子どもの頃に住んでいた街を海中世界に変えて魚たちと泳ぐ。歴史の授業で生徒たちが古代ローマの広場を実際の現代ローマの座標で歩き回る——こうした体験が、Google AI Ultra(月額$200プラン)加入者ならグローバルで順次利用可能になっていきます。
ただし冷静に見ておくべき限界もあります。現状のGenieはまだ実験的プロトタイプで、生成セッションは60秒・720p・24fpsという制約があります。視覚的な品質は「フォトリアリスティックなレベル」ではなく「ビデオゲーム品質」だと取材したメディアが評しており、物理シミュレーションも未完成で、物体をすり抜けてしまうケースがあります。完成された商品というよりは、これから6〜12カ月で急速に磨かれていく研究プロトタイプと捉えるのが適切です。
また、この技術には別の問いも内包されています。実在の場所をAIが勝手に「再解釈」して表現することの是非です。ある街の住民にとって、その街角は数世代にわたる記憶の堆積です。それをAIが「砂漠化」「1920年代化」「海中化」する自由を持つとき、場所の固有性や歴史的・文化的意味はどう守られるのか。著作権や肖像権だけでは捉えきれない問題が、これから議論されることになるでしょう。
【用語解説】
ワールドモデル(World Model)
AIが「世界がどのように動くか」を内部的に表現し、環境の変化や自分の行動の影響を予測するAIシステム。動画生成AIが「結果としての映像」を出力するのと異なり、ワールドモデルはユーザーの入力に応じてリアルタイムで次の状態を生成し続ける。AGIへの道程における重要な要素と位置づけられている。
Project Genie
Google DeepMindが開発するワールドモデルの研究プロトタイプ。Genie 3を搭載し、テキストや画像を入力とするインタラクティブな3D仮想空間をリアルタイムで生成する。720p・24fpsで数分間にわたって環境の整合性を保つ能力を持つ。Google Labsの実験的サービスとして提供されており、現在はGoogle AI Ultra(月額$200プラン)加入者が利用可能。
Waymo World Model
Googleの自動運転部門Waymoが2026年2月に発表した自動運転シミュレーション専用の生成AIモデル。Genie 3をベースに自動運転用途に特化させており、カメラ画像とLiDAR点群データを時間的整合性を保ちながら同時に生成できる。竜巻や洪水、路上に出没する象など「ロングテール」と呼ばれる稀少事象の仮想訓練に活用される。
ロングテール(Long Tail)
確率分布の裾野にあたる、発生頻度は低いが無視できないシナリオ群を指す。自動運転の文脈では、通常走行中に遭遇する可能性は低いものの、AIが対処法を事前に習得しておかなければならないような極端な状況のこと。なお、ここでの「ロングテール」はビジネス・マーケティングで知られるクリス・アンダーソンの「長尾理論」とは別の統計的な意味で使用している。仮想シミュレーションの主要な存在意義の一つとなっている。
コヒーレンス(Coherence)/ 空間的整合性
ワールドモデルの文脈では、環境の見え方や物体の配置がユーザーの視点変化・時間経過に対して一貫して保たれている性質を指す。振り返ったときに「先ほどと同じ風景が広がっている」「壁に塗った色が後から確認してもそのまま残っている」など。動画生成モデルとワールドモデルを分ける決定的な要素の一つ。
【参考リンク】
Project Genie(Google Labs)(外部)
GoogleのProject Genie公式プロトタイプ。Google AI Ultra(月額$200プラン)加入者が実際にストリートビュー連携を含む機能を試せる入口。
Genie 3:ワールドモデルの新境地(Google DeepMind公式ブログ)(外部)
Genie 3の技術詳細と設計思想を解説する一次情報源。リアルタイム生成の仕組みや安全性への取り組みも記載。
Simulate real-world places with Project Genie and Street View(Google DeepMind公式ブログ)(外部)
今回の発表の一次情報。ストリートビュー連携とグローバル展開の詳細を公式に説明している。
Waymo World Model(Waymo公式ブログ)(外部)
Genie 3をベースとした自動運転シミュレーションの詳細。ロングテール事象の学習意義と多センサー生成アーキテクチャを解説。
Google AI Ultra(外部)
Project Genieを含むGoogleのAIサービス群にアクセスできるサブスクリプション。月額$200のプランで提供(I/O 2026で$250から値下げ)。
Street View Insights — Google Maps Platform(外部)
ストリートビューデータを活用した商用AIサービス。通信インフラや電力設備の自動点検などB2Bの活用事例が確認できる。
【参考記事】
Google’s Genie world model can now simulate real streets with Street View(TechCrunch)(外部)
今回のアップデートに関する最も詳細な報道。DeepMind研究者Jack Parker-HolderとGoogle マップ担当のJonathan Herbertのコメントを含む。
Google DeepMind connects Street View to Project Genie world model(TNW / The Next Web)(外部)
ストリートビューの戦略的資産としての位置づけと、動画生成AIとの差別化を整理した分析記事。
Project Genie adds Google Street View integration and goes live for global AI Ultra users(Engadget)(外部)
生成セッション60秒・720p・24fpsという仕様と、グローバル展開時期の確認に使用。
Waymo Introduces the Waymo World Model(MarkTechPost)(外部)
Genie 3をベースにしたWaymo World Modelのアーキテクチャ詳細を解説。ロングテールシナリオの意義を理解するための参照元。
Turning 280 Billion Images into Actionable Infrastructure Insights(Google Maps Platform)(外部)
ストリートビューの2,800億枚・110カ国という数値の一次出典。Street View Insightsの一般提供発表(2026年3月25日)を含む。
【編集部後記】
現実の街角が、60秒間だけ別の世界になる。
「便利なナビ機能」として始まったストリートビューが、20年の時を経てAIの学習基盤へと姿を変えていく過程は、テクノロジーの価値がいかに後から現れるかを改めて教えてくれます。今は「ビデオゲーム品質」に過ぎないGenieの生成世界が、数年後に何になっているのか——そして、私たちが「場所の記憶」とどう向き合うことになるのか、一緒に考え続けたいと思います。












