advertisements

Gemini 3 Flash「Agentic Vision」発表―AIが画像を「見直す」能動的視覚処理で精度5-10%向上

[更新]2026年1月28日

Gemini 3 Flash「Agentic Vision」発表―AIが画像を「見直す」能動的視覚処理で精度5-10%向上

細かい文字を読むとき、私たちは自然と目を近づけたり角度を変えたりします。GoogleのAgentic Visionは、AIにもその「見直す力」を与え、建築図面の検証から医療画像診断まで、精度が命となる現場を変えようとしています。


Google DeepMindは2026年1月27日、Gemini 3 FlashにAgentic Visionという新機能を発表した。プロダクトマネージャーのローハン・ドーシによると、この機能は視覚的推論とコード実行を組み合わせ、画像理解をエージェント的なプロセスに変換する。

モデルはThink(思考)、Act(行動)、Observe(観察)のループで動作し、Pythonコードを生成・実行して画像をトリミング、回転、注釈付けするほか、計算やバウンディングボックスのカウントなどの分析を行う。

コード実行の有効化により、ほとんどの視覚ベンチマークで5〜10%の品質向上が確認された。AI活用建築計画検証プラットフォームのPlanCheckSolver.comは、この機能により精度が5%向上した。

Agentic VisionはGoogle AI StudioおよびVertex AIのGemini APIで利用可能であり、Geminiアプリでも展開が開始されている。

From: 文献リンクIntroducing Agentic Vision in Gemini 3 Flash

Google公式より引用

【編集部解説】

Googleが発表したAgentic Visionは、AIの「見る」という行為に対する根本的な発想の転換を示しています。従来のコンピュータビジョンは、人間でいえば「一瞬だけ目を開けて閉じる」ようなもので、その一度の観察で得られた情報だけで判断を下していました。Agentic Visionは、これを「何度も目を凝らして確認する」プロセスへと進化させたのです。

この技術の核心は、Think(思考)、Act(行動)、Observe(観察)という3段階のループにあります。モデルはまず画像全体を分析して戦略を立て、次にPythonコードを生成・実行して画像を拡大したり回転させたりして詳細を確認し、その結果を再度観察して最終的な回答を導き出します。人間が細かい文字を読むときに目を近づけたり、角度を変えて見直したりするのと同じプロセスです。

特筆すべきは、計算をPythonという「決定論的な環境」にオフロードすることで、AIが陥りがちな「ハルシネーション」(存在しないものを見たと誤認する現象)を大幅に軽減している点です。建築計画検証プラットフォームのPlanCheckSolver.comが精度を5%向上させた事例は、この技術が実務レベルで機能することを示しています。

5〜10%という数値は一見控えめですが、これはほぼすべての視覚ベンチマークで「一貫して」達成された向上率です。AIの性能向上は通常、特定のタスクで劇的に伸びる一方で他のタスクでは横ばい、というパターンが多いため、全般的な底上げは極めて価値があります。

この技術が開く可能性は広範囲に及びます。医療画像診断では、疑わしい箇所を自動的に拡大して詳細を確認できます。製造業の品質管理では、製品の微細な欠陥を見逃さずに検出できるでしょう。建築や土木では、複雑な設計図の細部まで正確に検証できます。

一方で、潜在的な課題も存在します。コード実行を伴うため処理時間が長くなる可能性があり、リアルタイム性が求められる用途では制約となるかもしれません。また、モデルが生成するPythonコードの品質に依存するため、予期しないエラーやセキュリティリスクへの対応も必要です。

Googleは今後、画像の回転や視覚的数学といった機能を「暗黙的」に実行できるよう改善し、ウェブ検索や逆画像検索といった追加ツールの統合、そしてFlash以外のモデルサイズへの展開を計画しています。これは、AIの視覚能力が単なる「認識」から「理解と検証」へと進化する大きな転換点といえるでしょう。

【用語解説】

Agentic Vision
画像理解を静的な一回の観察から、Think(思考)、Act(行動)、Observe(観察)のループを繰り返す能動的なプロセスに変換する技術。モデルが自律的に画像を操作・分析し、視覚的証拠に基づいた回答を導き出す。

ハルシネーション(幻覚)
AIが実際には存在しない情報を「見た」「認識した」と誤って出力する現象。特に視覚的な推論や複数ステップの計算で発生しやすい。Agentic Visionでは計算を決定論的なPython環境にオフロードすることで、この問題を軽減している。

視覚ベンチマーク
AIモデルの視覚認識能力を評価するための標準化されたテストデータセット。物体認識、画像分類、シーン理解など、様々なタスクでモデルの性能を測定する。

コンテキストウィンドウ
AIモデルが一度に処理・参照できる情報の範囲。Agentic Visionでは、変換された画像を次々とコンテキストウィンドウに追加することで、モデルが過去の観察結果を踏まえた判断を行える。

バウンディングボックス
画像内の特定の物体や領域を矩形で囲んで示す手法。物体検出や画像注釈で広く使用される。Agentic Visionでは、モデルが自動的にバウンディングボックスを描画して推論を視覚的に根拠付ける。

SWE-bench Verified
ソフトウェアエンジニアリングタスクにおけるAIエージェントの能力を評価するベンチマーク。実際のGitHubのイシューやプルリクエストを基にした実践的な評価指標。

【参考リンク】

Google AI Studio(外部)
Googleが提供する開発者向けAI実験プラットフォーム。Geminiモデルでのプロトタイピングやテストが可能で、Agentic Visionのデモアプリも公開中。

Vertex AI(外部)
Google Cloudのエンタープライズ向け機械学習プラットフォーム。Gemini APIを含む多様なAIモデルとツールを統合し、本番環境での構築をサポート。

Google DeepMind(外部)
Googleの人工知能研究組織。先進的なAIモデルの研究開発を行い、Geminiシリーズを含む最先端のAI技術を生み出している。

PlanCheckSolver.com(外部)
AIを活用した建築計画検証プラットフォーム。Gemini 3 FlashのAgentic Vision導入で高解像度建築図面の検査精度を5%向上させた。

【参考記事】

Introducing Gemini 3 Flash: Benchmarks, global availability(外部)
Gemini 3 Flashの全体発表記事。GPQA Diamondで90.4%、SWE-bench Verifiedで78%を達成し、Pro級の推論能力をFlash級の速度で実現。

Gemini 3 Flash — Google DeepMind(外部)
Google DeepMindによる技術詳細ページ。Gemini 2.5 Flashと比較して全体精度が15%向上し、エージェント的ワークフローに最適化。

Gemini 3 Flash is now available in Gemini CLI(外部)
Gemini CLIでの利用開始に関する記事。SWE-bench Verifiedで78%達成、Gemini 3 Proと比較して3倍高速かつコストは4分の1未満。

Agentic AI in Computer Vision Domain – Recent Advances(外部)
エージェント的AIとコンピュータビジョンの統合に関する学術レビュー。知覚、意思決定、行動を統合したフレームワークを解説。

Agentic AI and computer vision: The future of automation(外部)
従来のコンピュータビジョンシステムとエージェント的AIの違いを解説。環境との相互作用を通じた継続的改善能力を強調。

【編集部後記】

AIが「見る」という行為を根本から変えようとしている今、みなさんはどんな可能性を感じますか。細かい文字を読むとき、私たちは自然と目を近づけたり角度を変えたりします。Agentic Visionは、AIにもそうした「見直す」能力を与えました。

医療画像診断、製造現場の品質管理、建築図面の検証など、「一度見ただけでは判断できない」場面は数多く存在します。みなさんの業務や日常で、「もう一度よく見たい」と思う瞬間はありませんか。AIが人間のように何度も確認しながら判断できるようになったとき、どんな未来が開けるのか、一緒に考えてみたいです。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…

innovaTopia の記事は、紹介・引用・情報収集の一環として自由に活用していただくことを想定しています。

継続的にキャッチアップしたい場合は、以下のいずれかの方法でフォロー・購読をお願いします。