WorldLens VR、AIで「平面から3D」——ストリートビューに視差を足す一人の開発者の挑戦

[更新]2026年5月19日

Googleで優先するソースとして追加するボタン

Meta Questに代表されるスタンドアロン型VRヘッドセットの普及は、「どこにいながらにして世界を体験する」という問いを、ふたたび現実的な射程に引き込んでいます。Googleのストリートビューは何百万もの街角を記録してきましたが、その映像は長らく平面のパノラマ——頭を囲む「壁紙」——にとどまってきました。その制約を、一人の開発者がAI推論で突き破ろうとしています。


VRアプリ「WorldLens VR」は、Meta Quest向けにAIを活用した新機能をリリースした。Googleストリートビューの平面パノラマ映像に3Dの奥行きをリアルタイムで付加するもので、SteamVR版も開発中だ。

開発者のStoian Eduard Andreiによると、Googleはサードパーティ開発者にLiDARデータや深度マップを提供していないため、WorldLensは単一の2Dパノラマから空間構造全体をリアルタイムで推定する方式を採用している。奥行きの表現はリアルタイムのパララックス(視差)に依存しており、タイムズスクエアやポルシェ博物館(ドイツ・シュトゥットガルト)など都市・屋内空間でも効果を確認できる。さらに4倍ニューラルアップスケーラーを内蔵し、テクスチャの鮮明さを補う。PCVRへの移植も進行中で、有線接続環境ではより高速なローディングとほぼ瞬時の3D生成を目指すとしている。

From: 文献リンクWorldLens VR’s New AI Depth Feature Enables 3D Street View

【編集部解説】

WorldLens VRが採用しているのは、コンピュータビジョンの分野で「単眼深度推定(Monocular Depth Estimation)」と呼ばれる技術系譜の応用です。1枚の2D画像から、画素ごとの距離情報を推測する——人間が片目を閉じても遠近を感じ取れるように、ニューラルネットワークに「奥行きの感覚」を学習させる試みです。

長らくこの分野はLiDARやステレオカメラなど専用ハードウェアの補助を前提としてきましたが、近年は基盤モデル(foundation model)の登場で状況が一変しました。代表例が2024年6月に登場したDepth Anything V2(NeurIPS 2024)で、合成データを教師に用い、大規模な擬似ラベル付き実画像で生徒モデルを訓練するアプローチによって、従来のSD(Stable Diffusion)ベースのモデルより高速かつ高精度な深度推定を実現しました。

注目すべきは、その後の拡張のスピードです。同年6月にはApple Core MLに移植され、12月にはPrompt Depth Anything(疎なLiDARをヒントに4K解像度メトリック深度を出力)、翌2025年1月にはVideo Depth Anything(5分超の長尺映像で時間的一貫性を保つ)、そして2025年12月にはDepth Any Panoramas / DA360という、パノラマ360°画像への適用版がプレプリントとして公開されています。

ストリートビューの平面パノラマから3Dを生成するというWorldLensのタスクは、わずか2年前であれば「研究室の試作」の領域でした。それが、一人の開発者が単体ヘッドセット上でリアルタイムに動かせる消費者向け機能として実装可能になった——技術の到達点としては、このタイミングが偶然ではないことが見えてきます。

Quest 3のNPUが開いた「オンデバイスAI」の扉

もう一つの条件は、ハードウェアの側です。Meta Quest 3に搭載されているQualcomm Snapdragon XR2 Gen 2は、4nmプロセスで製造され、前世代(XR2 Gen 1)と比較してNPU(ニューラル処理ユニット)のAI性能/Wattが約8倍に向上しています。これはオンデバイスでの動的物体認識やシーン分類といったタスクを現実的な消費電力で回せるようになったことを意味します。

クラウドにストリームして処理結果を送り返す方式では、VRに必須の低遅延要件(典型的にはモーション・トゥ・フォトンで20ms以下)を満たせません。WorldLensの「視差がパチッとはまる」一瞬の感覚——元記事の表現を借りれば”the depth layer snaps into place”——は、推論がヘッドセットの中で完結しているからこそ成立しています。

LiDARなしに、1枚のパノラマから空間を再構築する

ここで、WorldLensが置かれた特殊な制約条件を改めて整理しておきます。Googleは2023年にPhotorealistic 3D Tiles APIをサードパーティ開発者に開放しましたが、これはGoogle Earthの3Dメッシュ部分の話です。一方、ストリートビューについては、撮影車両に搭載されたLiDARで実際に取得された生の深度データや、内部で生成されている深度マップは、サードパーティに開放されていません。Andreiが元記事で語った「raw LiDAR dataもdepth mapも提供されない」というのは、この境界線のことです。

つまりWorldLensは、Google自身が深度情報を持っているにもかかわらず、それを使えない立場にあります。同じ場所の同じパノラマ画像から、外部の開発者がゼロから空間構造を推定し直しているわけです。開放されていない扉の前で、推論技術を使って事実上の代替路を作る——プラットフォーム経済の構造的な非対称性が、AI実装の動機になっている例とも読めます。

なぜ「派手な3D」ではなく「控えめな3D」を選んだのか

ここからが、この記事で最も考察したい論点です。AI生成技術の典型的な失敗モードは「ハルシネーション(幻覚)」——存在しないものをそれらしく作り出してしまうことです。2D→3D変換の領域でも、この問題は深刻です。あるオープンソースの変換ツール(depth-surge-3d)のドキュメントは、「algorithmic stereo divergence(アルゴリズムによる立体視のずれ)、synthetic depth layers(合成された深度レイヤー)、monocular hallucinations(単眼推定のハルシネーション)」を「ユニークな美学(unique aesthetic)」として受け入れるよう明記しています。これは正直な姿勢ですが、同時に「派手さの代償としてのアーティファクト」を肯定する設計思想でもあります。

Andreiの選択は逆方向でした。彼は4倍ニューラルアップスケーラーについて「存在しないオブジェクトを生成したり架空のジオメトリを作り出したりしない」と明言しています。デプスレイヤーも同様で、彼が記者に語った設計目標は「リアリズム」、つまり「実際のシーンにできる限り近い形」でした。派手な「飛び出し効果」を捨て、リアルタイム視差の控えめなずれだけに依存する——これは技術的に「できなかった」のではなく、意図的に「やらなかった」と読むべきです。

視差(motion parallax)が存在感を生む——認知科学からの裏付け

なぜ控えめでも体験として成立するのか。ここに認知科学的な裏付けがあります。立体視(stereopsis、両眼視差)とは別に、人間の脳には「運動視差(motion parallax)」という強力な単眼性の奥行き手がかりが備わっています。頭を動かしたとき、近くの物体は速く、遠くの物体はゆっくり視野を横切る——その速度差から距離を読み取る仕組みです。

VR研究の知見によれば、頭の位置追跡を伴う運動視差は、両眼立体視よりもむしろVRにおける「存在感(presence)」を高めることが示されることが報告されています。視差が「感覚運動随伴性(sensorimotor contingency)」——自分の動きに対して環境が予測通りに応答する関係性——と結びついていることが鍵で、その対応が脳に「そこにいる」という感覚を生む条件になっています。

つまりWorldLensの「控えめな視差」は、認知科学が示す「最も効率的に存在感を立ち上げる手がかり」をピンポイントで突いた設計とも読めます。派手な飛び出しは脳にとってむしろノイズになりうる——立体視と運動視差が食い違えば、シミュレータ酔いや違和感の原因にすらなります。Andreiが「pop-out book 3Dとして売り込むべきでない」と釘を刺すのは、開発者としての謙虚さである以前に、視覚情報の整合性に対する技術的な誠実さの表明でしょう。

「分かった気にさせない」AIの作法

生成AIの潮流は、しばしば「より派手に、より大胆に、より人間を驚かせる方向」へと進みがちです。画像生成も動画生成も、ベンチマークは「すごさ」で語られます。その流れの中で、Andreiの選択は明確に逆を向いています——AIにできることのうち、現実と整合する部分だけを採用し、整合しない部分は出さない。これは技術的な遠慮ではなく、「AIが何を分かっていて、何を分かっていないか」の境界線を、ユーザー体験の中に正直に反映する作法です。

私たちが普段見るストリートビューは、撮影車両がその街角を通った特定の日時の光景にすぎません。風が吹いた瞬間の枝の揺れ、通行人の影、店先の幟——すべてが偶発的に切り取られた断片です。WorldLensが行っているのは、その断片に「視差という一次元」を足すことであり、足りない情報をでっち上げて補完することではありません。

派手なAIは「あなたの代わりに見てきた」と語りかけますが、控えめなAIは「あなたが少し動けば、私が補助線を引きます」と言うにとどまります。後者の方が、結果として人間の身体感覚と長く付き合える——そんな仮説を、この一人開発者の選択は静かに提示しています。

残された問い——ストリートビューが「経験」になるとき

技術的に解像度が上がっていけば、いずれ「実際に行ったこと」と「ヘッドセットで体験したこと」の境界はさらに曖昧になるでしょう。それは観光産業や移動困難者の支援、災害被災地のアーカイブ、消えゆく街並みの記録など、多くの可能性を開きます。一方で、「行く前に見てしまった場所」を、現地で改めて新鮮に体験できるのか、という問いも残ります。

WorldLensが示しているのは、こうした問いに答える前に、まず技術がどこまで来ているのかを正確に見ておくべきだ、ということです。1枚の2Dパノラマから空間構造をリアルタイムで推定し、ヘッドセットの中に控えめな奥行きを生む——わずか数年前には不可能だった水準が、いま一人開発者の手のひらに収まりつつあります。

【用語解説】

単眼深度推定(Monocular Depth Estimation)
1枚の2D画像のみを入力として、各画素の奥行き(距離)情報を推定する技術。LiDARやステレオカメラなどの専用ハードウェアを使わず、ニューラルネットワークが学習した視覚的な手がかり(遠近法、テクスチャの粗さ、物体の重なりなど)から奥行きを推論する。近年の基盤モデル(Depth Anything V2など)により精度と速度が飛躍的に向上し、モバイル・エッジデバイスへの展開が現実的になった。

運動視差(Motion Parallax)
観察者が頭や体を動かした際、近くにある物体が遠くの物体より速く視野内を移動して見える現象。人間が片目だけで奥行きを感じ取れる主要な手がかりの一つ。VR研究では、ヘッドトラッキングと組み合わせた運動視差が両眼立体視よりも「存在感(Sense of Presence)」の向上に寄与する場合があることが示されている。

感覚運動随伴性(Sensorimotor Contingency)
自分の動きに対して感覚入力が法則的・予測可能な形で変化する関係性。VRにおける「存在感」研究では、能動的な身体動作と視覚変化の対応が一致していることが、脳が「その場にいる」と感じる鍵とされる。運動視差が存在感を生むメカニズムの認知科学的な説明基盤。

NPU(Neural Processing Unit/ニューラル処理ユニット)
ニューラルネットワークの演算に特化したプロセッサ。汎用のCPUやGPUと比べて、行列積演算などAI推論に必要な処理を低電力・高速で実行できる。Meta Quest 3に搭載されるQualcomm Snapdragon XR2 Gen 2のNPUは、前世代比でAI性能/Wが約8倍に向上しており、スタンドアロンヘッドセット上でのリアルタイムAI推論を可能にする。

Google Photorealistic 3D Tiles API
Googleが2023年にサードパーティ開発者へ開放した、フォトリアルな3D地図データへのアクセスAPI。Google EarthのリアルなビルメッシュやテクスチャをUnityやUnreal Engine等のゲームエンジンから利用できる。ストリートビューの生深度データは含まれず、開発者は別途推定する必要がある。

ニューラルアップスケーラー(4倍)
低解像度の画像・テクスチャを、ニューラルネットワークを用いて高解像度に拡大する技術。NVIDIAのDLSSやAMDのFSRなどが代表例。WorldLens VRの4倍ニューラルアップスケーラーは「架空のオブジェクトや形状を生成しない」設計が特徴で、ハルシネーションを抑えた忠実な拡大を目指している。

【参考リンク】

WorldLens VR — Meta Quest ストアページ(外部)
Meta Quest向け公式ダウンロードページ。現在はQuest版のみ配信中。SteamVR版はWishlist登録受付中。

WorldLens VR — Steam(ウィッシュリスト)(外部)
開発中のSteamVR版を先行登録できる。PCへの有線接続により高速ロードとほぼ瞬時の3D生成を目指すとされている。

Depth Anything V2 — 公式プロジェクトページ(外部)
単眼深度推定の基盤モデル。合成データと擬似ラベル付き実画像の組み合わせにより高精度・高速な深度推定を実現。NeurIPS 2024採択。

Google Maps Platform — Photorealistic 3D Tiles(外部)
Googleが開発者向けに公開している3D地図データAPI。WorldLens VRが依拠するGoogle Earth 3Dメッシュの開発者向けドキュメント。

Cesium for Unity — 公式サイト(外部)
3D地球・都市スケールのリアルタイム可視化フレームワーク。WorldLensの開発者がキャリア開始時から利用しており、本アプリのアーキテクチャの根幹を成す。

【参考動画】

EarthQuest | The Best VR Travel & Exploration App – All in One | Meta Quest | Official Promo — 開発者チャンネルによる公式プロモーション動画。旧名称EarthQuestからWorldLensへの改名前の制作だが、アプリの主要機能(3D地球、ストリートビュー、マルチプレイヤー、AIガイド)を包括的に紹介。

【参考記事】

WorldLens Delivers High-Performance VR Exploration(外部)— Cesium公式ブログ(2026-01-06)
Cesiumが取り上げた開発者インタビュー。Stoian Andreiが15歳のときにCesiumとGoogle 3D Tilesに出会い開発を始めた経緯、OpenAI API統合のWorld AI機能、2,000言語対応など、本記事の背景理解に不可欠な一次情報源。

EarthQuest Brings Google Earth VR-Like Experiences to Quest(外部)— Road to VR(2024-05)
現WorldLensの旧名称「EarthQuest」時代のローンチ記事。2023年9月のQuest初リリース、8K非圧縮ストリートビュー対応など、アプリの来歴を追う上での基礎資料。

EarthQuest Hands-On: Google Earth in VR for Quest(外部)— Mixed(XR Today)
Google Photorealistic 3D Tiles APIのサードパーティ開放を背景に、EarthQuest・Wooorld・Flyの3アプリが競合する構図を解説。WorldLensが生まれた市場環境を俯瞰できる。

Snapdragon XR2 Gen 2: Everything You Need to Know(外部)— UploadVR
Meta Quest 3搭載チップの詳細解説。NPUのAI性能/W前世代比8倍、4nmプロセス採用など、本記事の「オンデバイスAI」論考の技術的根拠となる資料。

【編集部後記】

VRが「そこにいる感覚」を生むとき、それは技術の勝利でも錯覚の産物でもなく、脳が環境の変化に意味を見出した瞬間かもしれません。WorldLensのように、AIが「足さないこと」を選ぶ設計が増えていくとき、私たちは「体験の真正性」について改めて問い直すことになるでしょう。一人の開発者が立てたこの問いを、私たちも手放さずに追いかけていきます。

Googleで優先するソースとして追加するボタン
投稿者アバター
乗杉 海
SF小説やゲームカルチャーをきっかけに、エンターテインメントとテクノロジーが交わる領域を探究しているライターです。 SF作品が描く未来社会や、ビデオゲームが生み出すメタフィクション的な世界観に刺激を受けてきました。現在は、AI生成コンテンツやVR/AR、インタラクティブメディアの進化といったテーマを幅広く取り上げています。 デジタルエンターテインメントの未来が、人の認知や感情にどのように働きかけるのかを分析しながら、テクノロジーが切り開く新しい可能性を追いかけています。