Last Updated on 2024-06-24 07:16 by 門倉 朋宏
Meta AIとニューヨーク大学の研究者が開発したOK-Robotは、未知の環境でのピックアンドドロップ作業をゼロショットで実行するロボティクスシステムです。このシステムは、事前に訓練された機械学習モデルを組み合わせて、視覚言語モデル(VLM)と動作計画、物体操作モデルを活用し、訓練なしでタスクを遂行します。
OK-Robotは、オープンボキャブラリーのオブジェクトナビゲーションモジュール、RGB-Dグラスピングモジュール、ドロッピングヒューリスティックシステムの3つの主要サブシステムを組み合わせています。新しい環境に配置された際、OK-Robotは内部の手動スキャンを必要とし、iPhoneアプリを使用してRGB-D画像のシーケンスをキャプチャします。これらの画像を用いて3D環境マップを作成し、自然言語クエリに基づいてオブジェクトをピックアップし、最適な経路を計算してオブジェクトを目的地にドロップします。
研究者たちは10軒の家で171回のピックアンドドロップ実験を行い、OK-Robotが未知の環境でのタスクを58%のケースで完了させることに成功したことを報告しています。このシステムはゼロショットアルゴリズムを使用しており、特定の環境に対して特別に訓練されていません。クエリの改善やスペースの整理、敵対的なオブジェクトの除外により、成功率は82%以上に向上します。
OK-Robotは、現在のオープンボキャブラリー視覚言語モデルが実世界の任意のオブジェクトを識別し、ゼロショットでそれらにナビゲートするのに非常に優れていること、そして特別な目的のロボットモデルが未知の環境でのオープンボキャブラリーグラスピングにそのまま適用できることを示しています。また、適切なツールと設定を用いることで、訓練なしでゼロショットタスクを実行するために事前に訓練されたモデルを組み合わせることができることも示しています。
【ニュース解説】
Meta AIとニューヨーク大学の研究者によって開発されたOK-Robotは、未知の環境で物体を拾い上げて指定された場所に置く、いわゆるピックアンドドロップ作業を訓練なしで実行できるロボティクスシステムです。この技術は、事前に訓練された機械学習モデルを組み合わせることで、視覚言語モデル(VLM)と動作計画、物体操作モデルを活用し、新しい環境でのタスクを可能にします。
このシステムは、オープンボキャブラリーのオブジェクトナビゲーション、RGB-Dグラスピング、ドロッピングヒューリスティックシステムの3つの主要サブシステムから構成されています。新しい環境に配置された際には、内部の手動スキャンが必要で、iPhoneアプリを使用してRGB-D画像のシーケンスをキャプチャし、これらの画像を用いて3D環境マップを作成します。その後、自然言語クエリに基づいてオブジェクトを特定し、ピックアップして目的地にドロップするプロセスを実行します。
このシステムの特徴は、特定の環境に対して特別に訓練されていないにもかかわらず、未知の環境でのタスクを58%のケースで完了させることができる点です。さらに、クエリの改善やスペースの整理、敵対的なオブジェクトの除外により、成功率を82%以上に向上させることが可能です。
この技術のポジティブな側面としては、未知の環境での迅速な適応能力が挙げられます。これにより、災害救助や家庭内でのアシスタントとしての応用が期待されます。一方で、自然言語プロンプトと正しいオブジェクトのマッチング失敗や、一部のオブジェクトに対するグラスピングモデルの失敗、ロボットハードウェアの限界など、いくつかの課題も存在します。また、環境スキャン後にオブジェクトメモリモジュールが固定されるため、環境の変化に動的に適応することができない点も課題として挙げられます。
将来的には、これらの課題を克服し、より高い成功率と柔軟性を持つロボティクスシステムの開発が期待されます。また、この技術の進化は、ロボットが人間の生活空間でより有用な役割を果たすことを可能にし、ロボティクスと人間の関係に新たな章をもたらす可能性があります。
from Meta’s OK-Robot performs zero-shot pick-and-drop in unseen environments.