ロボットを直感的にトレーニング出来るフレームワーク:MITとNVIDIAの新技術

 - innovaTopia - (イノベトピア)

MITとNVIDIAの研究者たちは、ロボットが間違った行動をした際に、ユーザーが簡単に修正できる新しいフレームワークを開発した。この技術では、画面上で指さしたり、軌道をなぞったり、ロボットの腕を物理的に正しい方向に軽く押したりするだけで、ロボットの行動を修正できる。従来の方法とは異なり、機械学習モデルの再トレーニングが不要で、直感的なリアルタイムフィードバックを活用する。テスト結果では、人間の介入を活用しない方法と比較して成功率が21%向上した。

この研究は、MITの電気工学・コンピュータサイエンス(EECS)大学院生のフェリックス・ヤンウェイ・ワン氏が筆頭著者を務める論文にまとめられている。共著者には、リルイ・ワン博士(2024年PhD取得)、イルン・ドゥ博士(2024年PhD取得)、上級著者のジュリー・シャー教授(MITの航空宇宙工学教授でCSAILのインタラクティブロボティクスグループのディレクター)、さらにNVIDIAのバラクマール・スンダラリンガム氏、シュニン・ヤン氏、ユーウェイ・チャオ氏、クラウディア・ペレス=ダルピノ博士(2019年PhD取得)、ディーター・フォックス氏が名を連ねている。

この研究は2025年に開催される国際ロボットと自動化会議(ICRA)で発表される予定である。研究チームは今後、サンプリング手順の速度向上と新しい環境でのロボットポリシー生成について研究を進める計画だ。

from Robotic helper making mistakes? Just nudge it in the right direction

【編集部解説】

MITとNVIDIAの研究チームが開発した新しいロボット制御フレームワークは、家庭用ロボットの実用化に向けた大きな一歩と言えるでしょう。この技術の最も革新的な点は、専門知識を持たない一般ユーザーでも直感的にロボットを「教育」できる点にあります。

現在のロボット技術の大きな課題の一つは、工場や研究室でトレーニングされたロボットが、実際の家庭環境で効果的に機能できるようにすることです。家庭ごとに環境が異なり、物の配置も様々であるため、あらゆる状況に対応できるようにロボットを事前にトレーニングすることは事実上不可能です。

この研究では、指さしたり、画面上で軌道を描いたり、物理的にロボットを軽く押すだけという単純な操作で、ロボットの行動を修正できるようになっています。これは、NVIDIAが以前から取り組んでいるロボット学習の効率化研究の流れを汲むものと言えます。NVIDIAは2023年にわずか10回のデモンストレーションで新しいタスクを学習できるRVT(Robotic View Transformer)を発表しており、今回の研究はその発展形と考えられます。

また、注目する点としてこのシステムが機械学習の再トレーニングを必要としない点です。従来のアプローチでは、新しい環境や状況に適応するためには、データ収集と機械学習モデルの再トレーニングが必要でした。これは専門知識と時間を要する作業です。新しいフレームワークでは、ユーザーのフィードバックをリアルタイムで取り入れながら、ロボットが学習した有効な動きの範囲内で最適な行動を選択します。

この研究は、MITとNVIDIAが以前から協力して行ってきた自然言語によるロボット制御の研究とも関連しています。以前の研究では「バナナを潰さないで」といった言語指示でロボットの行動を修正できるシステムを開発していましたが、今回の研究ではより直感的な物理的インタラクションに焦点を当てています。

また、このシステムが継続的に学習できる見込みも興味深いポイントです。ユーザーが数回修正を行った後、ロボットはその修正を記憶し、将来同じタスクを行う際には自動的に正しい行動を取れるようになります。これは、家庭用ロボットが時間とともに各家庭の特性や好みに適応していくという、理想的なシナリオを実現する現実味があります。

MITの研究者たちは最近、ロボットのトレーニングに関する興味深いパラドックスも発見しています。従来は複雑な環境でロボットをトレーニングすべきと考えられていましたが、実は単純な環境でのトレーニングの方が、実世界での適応能力が高まることがわかりました。今回の研究もこの知見を活かしている十分あり得ることです。

この技術がもたらす期待できる成果は家庭用ロボットだけにとどまりません。製造業や医療、介護など、様々な分野でのロボット応用を加速させる見通しがあります。特に日本のような高齢化社会では、介護ロボットの普及が期待されていますが、個々の高齢者の状態や住環境に合わせた細かな調整が必要です。この技術により、専門知識のない介護者でもロボットを適切に調整できるようになれば、介護ロボットの実用化が大きく前進するでしょう。

課題として、ロボットが継続的に学習していく過程で、意図しない行動を学習してしまう確率があります。特に複数のユーザーが異なる指示を与える環境では、ロボットの行動が一貫性を失う恐れもあるでしょう。

しかし、これらの課題を考慮しても、この研究が示す方向性は非常に重要です。完全に自律的なロボットを目指すのではなく、人間との協働を前提としたロボット開発は、より現実的で実用的なアプローチと言えます。テクノロジーの進化は必ずしも「完全な自動化」だけを目指すものではなく、人間とテクノロジーの協働、そして人間の直感や意図をテクノロジーに簡単に伝える方法の開発も、同様に重要な進化の方向性なのです。

家庭用ロボットが普及する未来では、おそらく最初から完璧に動作するロボットよりも、ユーザーとの対話を通じて徐々に学習し、家庭の特性や個人の好みに適応していくロボットの方が、より受け入れられやすいのではないでしょうか。

【用語解説】

ポリシー(Policy):ロボット工学において、特定の状況でどのような行動を取るべきかを定義したルールセット。機械学習を通じてロボットに「正しい行動」を学習させるための枠組みです。

サンプリング手順:可能な行動の中から最適な行動を選択するための手法。この研究では、ユーザーの意図と実行可能な動作の両方を考慮して最適な行動を選ぶために使用されています。

【参考リンク】

MIT(マサチューセッツ工科大学)公式サイト(外部)世界最高峰の工科大学の公式サイト。最新の研究成果や教育プログラムに関する情報を提供しています。

NVIDIA公式サイト(外部)GPUの世界的リーダー企業の日本語公式サイト。AI、ロボティクス、自動運転などの最新技術情報を掲載しています。

MITコンピュータサイエンス・人工知能研究所(CSAIL)(外部)この研究が行われたMITの研究所。コンピュータサイエンスと人工知能の分野で世界をリードする研究機関です。

ホーム » ロボティクス » ロボティクスニュース » ロボットを直感的にトレーニング出来るフレームワーク:MITとNVIDIAの新技術