Google DeepMindは2025年9月25日、物理世界でのAIエージェント機能を実現する「Gemini Robotics 1.5」と「Gemini Robotics-ER 1.5」を発表した。
Gemini Robotics 1.5は最も高性能なVLA(視覚・言語・アクション)モデルで、視覚情報と指示をロボットの動作命令に変換する。行動前に思考プロセスを表示し、異なるロボット形態間で学習を転送できる。Gemini Robotics-ER 1.5は最も高性能なVLM(視覚・言語モデル)で、物理世界について推論し、Google検索などのデジタルツールを呼び出して多段階計画を作成する。15の学術ベンチマークで最先端性能を達成し、ERQA、Point-Bench、RoboSpatial-VQAなどを含む。
両モデルはエージェントフレームワークで連携し、ALOHA 2、Apollo、Frankaロボットなど異なる機体で動作する。Gemini Robotics-ER 1.5は9月25日からGoogle AI StudioのGemini APIで開発者に提供開始される。
From: Gemini Robotics 1.5 brings AI agents into the physical world
【編集部解説】
Google DeepMindが発表したGemini Robotics 1.5は、ロボティクス分野における重要な転換点を示しています。これまでのロボットAIが単純な命令実行に留まっていたのに対し、今回のシステムは「思考」という概念を物理世界に持ち込みました。
最も注目すべき点は、2つのモデルが協調して動作する「エージェント的」なアプローチです。Gemini Robotics-ER 1.5が高次の脳として戦略を立て、Gemini Robotics 1.5が実際の動作を担当する構造は、人間の認知プロセスに近いものといえるでしょう。
技術的な革新として特筆されるのが「異なる身体構造間での学習転移」です。ALOHA 2で学習したタスクがApptronikのApolloやFrankaロボットでも動作するということは、ロボット開発における根本的なパラダイム変化をもたらす可能性を示唆しています。従来は各ロボットに個別の学習が必要でしたが、この技術により開発効率が飛躍的に向上する可能性があります。
一方で、物理世界での自律行動が可能になることにより、新たなリスクも浮上してきます。DeepMindはロボットの安全性研究を重視しており、ASIMOVベンチマークのような評価基準の重要性が増していると考えられます。特に「思考」プロセスが加わることで、予期しない行動パターンが生じる可能性もあります。
産業への影響は段階的に現れると予想されます。まずは製造業や物流業での導入が進み、その後家庭用ロボットへと展開していくでしょう。Google検索との連携機能は、リアルタイムで情報を取得しながら作業できることを意味し、これまでにない柔軟性をロボットにもたらします。
規制面では、各国政府がロボットの自律性レベルに応じた新たなガイドライン策定を迫られることになるでしょう。特に「思考」するロボットの責任の所在や、予期しない行動への対処法については、早急な議論が必要になると考えられます。
【用語解説】
VLA(Vision-Language-Action)モデル
視覚情報、言語理解、物理行動を統合したAIモデル。カメラからの映像と自然言語の指示を理解し、ロボットの具体的な動作命令に変換する技術である。
VLM(Vision-Language Model)
視覚と言語を組み合わせて理解・推論を行うAIモデル。画像や動画の内容を理解するだけでなく、物理世界の状況を推論し、目標達成のための多段階計画を立案する能力を持つ。
身体化推論(Embodied Reasoning)
物理的な身体を持つロボットが、環境との相互作用を通じて学習・推論を行う概念。単純な情報処理ではなく、実世界での経験に基づく判断能力を指す。
エージェント的アプローチ
AIが単純な命令実行ではなく、目標達成のために自律的に計画を立て、ツールを使用し、状況に応じて行動を調整する手法。
ASIMOV benchmark
ロボットAIの安全性を評価するためのテストデータセット。SF作家アイザック・アシモフのロボット三原則にちなんで名付けられた。
【参考リンク】
Google DeepMind(外部)
AI研究を行うGoogle傘下の企業。AlphaGoやGeminiなど画期的なAI技術を開発している。
Google AI Studio(外部)
GoogleのAI開発プラットフォーム。開発者がGemini APIにアクセス可能。
ALOHA 2(外部)
スタンフォード大学が開発したロボット学習システム。人間のデモから学習する。
Apptronik Apollo(外部)
テキサス州の企業が開発するヒューマノイドロボット。汎用作業を目的とする。
Franka Robotics(外部)
ドイツの協働ロボットメーカー。研究用・産業用の精密な双腕ロボットを提供。
【参考記事】
Building the Next Generation of Physical Agents with Gemini Robotics-ER 1.5(外部)
Google Developers Blogの技術解説記事。開発者向けにAPI利用方法を詳述。
Google DeepMind unveils Gemini Robotics 1.5 to bring AI agents into the physical world(外部)
ロボティクス専門メディアによる分析記事。産業界への影響を第三者視点で評価。
Gemini Robotics 1.5: Pushing the Frontier of Generalist Robotics(外部)
DeepMindの公式技術レポート。15ベンチマークでの性能評価と安全性研究を詳述。
【編集部後記】
今回のGemini Robotics 1.5の発表を見て、皆さんはどのような感想を持たれましたか?私自身、「思考するロボット」という概念に驚きを感じています。これまでのロボットが決められた手順を実行するだけだったのに対し、状況を判断し、計画を立て、ツールを活用するという人間的な能力を獲得しつつあります。
特に興味深いのは、1つのロボットで習得したスキルを、全く異なる形状のロボットに転用できるという技術です。これは製造業や介護現場、家庭での活用可能性を大きく広げるのではないでしょうか。皆さんの職場や日常生活で、こうした「考えるロボット」が活躍する場面を想像できますか?
一方で、ロボットが自律的に判断し行動する時代への不安もあります。安全性や責任の所在など、私たちが向き合うべき課題について、ぜひ一緒に考えていければと思います。