ーTech for Human Evolutionー

OpenAI o3モデルの新機能が物議：1枚の写真から世界中のどこでも特定可能に

AI（人工知能）ニュース

Headline News

乗杉海

[公開]

2025年4月18日17:58

[更新]2025年4月18日

A_highly_advanced_futuristic_AI_analyzing_a_photog-1744966176429 - innovaTopia

OpenAIは2025年4月16日、新しい推論モデル「o3」と「o4-mini」を正式に発表した。これらは「画像で考える」能力を持つモデルで、特に視覚認識技術において大きな進歩を示している。

「o3」はOpenAIの最も強力な推論モデルで、コーディング、数学、科学、視覚認識などの分野に優れており、SWE-benchで69.1%のスコアを達成している。一方「o4-mini」は高速でコスト効率の高い推論に最適化されたモデルで、SWE-benchで68.1%のスコアを記録している。

両モデルの特徴として、ChatGPT内のすべてのツール（Web検索、Pythonによるデータ分析、ファイル解釈、画像生成など）をエージェント的に使用し組み合わせることができる点が挙げられる。

これらのモデルは、ChatGPT Plus、Pro、Teamユーザーが即時利用可能となっており、無料プランユーザーも「o4-mini」を利用できる。

注目すべき機能として、写真に写っている場所を特定する「ジオロケーション」または「リバースロケーション検索」能力があり、これが新たなバイラルトレンドとなっている。モデルは画像を編集（トリミングやズームイン）して情報を抽出し、地球上のほぼどんな場所でも、障害物があっても特定できる能力がある。

ウォートン大学准教授のイーサン・モリックらの検証によると、このモデルは単に写真からジオタグ情報を引き出しているのではなく、自ら「考えて」位置を特定しているという。GPT-4oも同様の能力を持つが、多くの場合o3の方がより正確な結果を提供する。

この機能は旅行者が訪れた場所の特定など有益な用途がある一方で、OpenAIは現時点でこの機能に対する効果的な安全対策を実装しておらず、プライバシー侵害やストーキングなどの悪用リスクが懸念されている。

from ChatGPT’s latest image tools are stirring up another viral and creepy trend

【編集部解説】

OpenAIが発表した新しい推論モデル「o3」と「o4-mini」は、AIの視覚認識技術における大きな飛躍を示しています。これらのモデルは単なる画像認識を超え、画像から場所を特定する「リバースロケーション検索」能力を持っており、この機能が現在バイラルトレンドとなっています。

複数の情報源を確認したところ、これらのモデルは画像を解釈・操作し、トリミングやズームインなどの編集を自ら行いながら情報を抽出する能力を持っています。特に注目すべきは、人物などの障害物があっても、建築様式や風景の特徴から撮影場所を特定できる点です。

ウォートン大学のイーサン・モリック准教授らの検証によると、このモデルは単に写真のメタデータやジオタグ情報を利用しているのではなく、画像そのものから視覚的特徴を分析して場所を推測しています。これはディープニューラルネットワークを用いた高度な画像理解技術の成果と言えるでしょう。

この技術の仕組みを理解するには、コンピュータービジョンの最新トレンドを知ることが重要です。2025年のコンピュータービジョン分野では、生成AIや視覚トランスフォーマー（ViTs）、マルチモーダル統合などが注目されています。o3とo4-miniはこれらの技術を統合し、膨大な画像データと地理情報のクロスリファレンスによる学習を行っていると考えられます。

このような技術の進化は、私たちの生活に様々な可能性をもたらします。例えば、旅行者が訪れた場所の特定や、歴史的写真のロケーション確認、ジャーナリズムにおける画像の検証など、多くの有益な用途が考えられます。教育分野では、地理学や歴史学の学習ツールとしても活用できるでしょう。

一方で、プライバシーに関する深刻な懸念も生じています。TechCrunchなど複数の情報源が指摘するように、OpenAIは現時点でこの「リバースロケーション検索」機能に対する効果的な安全対策を実装していません。この技術は悪用されればドキシング（個人情報の暴露）やストーキングなどに利用される可能性があります。特に懸念されるのは、SNSに投稿された写真から居住地や頻繁に訪れる場所が特定されるリスクです。

TechCrunchの報道によれば、GPT-4oも場所の特定能力を持っていますが、o3モデルはより正確な結果を提供する場合が多いようです。また、最初に場所を間違えた場合でも、正確な場所を特定するまで分析を続ける傾向があります。

このような技術の進化は、Google、Meta、xAI、Anthropic、DeepSeekなどとの激しい競争環境の中で生まれています。最近の資金調達でOpenAIは3000億ドルの評価を受けており、AI開発競争の最前線に立っています。

プライバシー保護と技術革新のバランスという難しい課題は、EUのGDPRや日本の個人情報保護法など、データプライバシーに関する規制がこの新しい技術にどのように適用されるかという点でも重要な議論となるでしょう。

最後に、この技術は完璧ではないことも認識しておくべきです。AIモデルは時に不正確な結果を出すことがあります。特に情報が限られた画像や、世界中に類似した景観が存在する場合には誤認識の可能性があります。しかし、技術の進化とともにその精度は向上し続けるでしょう。

【用語解説】

ジオロケーション（Geolocation）：ユーザーの位置情報を扱う技術のこと。GPSを使用する方法、IPアドレスからデータベースを検索する方法、Wi-Fiアクセスポイントの情報を使用する方法などがある。今回のAIモデルでは、写真に写った風景や建物から撮影場所を特定する能力を指している。

推論モデル（Reasoning Model）：単に情報を処理するだけでなく、「考える」能力を持つAIモデル。o3やo4-miniは、複雑な問題を解くために自ら思考プロセスを踏むよう設計されている。

マルチモーダル：テキスト、画像、音声など複数の情報形式（モダリティ）を同時に処理できる能力。o3モデルは特に「画像で考える」能力に優れている。

バイラルトレンド：インターネット上で急速に拡散し、多くの人々の間で話題になる現象。ウイルスのように広がることから「viral（バイラル）」と呼ばれる。

SWE-bench：ソフトウェアエンジニアリングのタスクに対するAIモデルの性能を評価するベンチマーク。o3は69.1%、o4-miniは68.1%のスコアを達成している。

【参考リンク】

OpenAI公式サイト（外部）ChatGPTやDALL-E、Whisperなどの革新的なAIモデルを開発する企業のサイト

ChatGPT（外部）OpenAIが開発した対話型AI。最新のo3モデルを含む様々なモデルを利用可能

TechCrunch（外部）OpenAIの新モデルとそのプライバシーリスクについて詳細な報道を行うメディア

【参考動画】

【関連記事】

AI（人工知能）ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

乗杉海

SF小説やゲームカルチャーをきっかけに、エンターテインメントとテクノロジーが交わる領域を探究しているライターです。 SF作品が描く未来社会や、ビデオゲームが生み出すメタフィクション的な世界観に刺激を受けてきました。現在は、AI生成コンテンツやVR/AR、インタラクティブメディアの進化といったテーマを幅広く取り上げています。デジタルエンターテインメントの未来が、人の認知や感情にどのように働きかけるのかを分析しながら、テクノロジーが切り開く新しい可能性を追いかけています。

記事一覧