innovaTopia

ーTech for Human Evolutionー

大規模言語モデルがロボティクス訓練を加速、DrEureka技術で未来への一歩

大規模言語モデルがロボティクス訓練を加速、DrEureka技術で未来への一歩 - innovaTopia - (イノベトピア)

Last Updated on 2024-07-03 06:59 by admin

Nvidia、ペンシルベニア大学、テキサス大学オースティン校の科学者による新しい研究によると、大規模言語モデル(LLM)は、ロボティクスシステムの訓練を超人的な方法で加速できることが示された。この研究では、DrEurekaという技術が紹介されており、ロボティクスシステムの報酬関数とランダム化分布を自動的に作成できる。DrEurekaは、ターゲットタスクの高レベルな説明のみを必要とし、シミュレーション環境から実世界への学習ポリシーの転送において、人間が設計した報酬よりも速く、効率的である。

DrEurekaは、シミュレーションと実世界環境の間の「シム・トゥ・リアル」ギャップと呼ばれる大きな課題に対処するために、LLMを使用してシム・トゥ・リアル転送プロセスにおける集中的な人間の努力を自動化することを目的としている。DrEurekaは、Eurekaという技術に基づいており、Eurekaはロボットタスクの説明を取り、そのタスクでの成功を測定する報酬関数のソフトウェア実装を生成するためにLLMを使用する。DrEurekaは、このプロセスをさらに進め、ドメインランダマイゼーション(DR)パラメータを自動的に設定する。DR技術は、RLポリシーが実世界で遭遇する予測不可能な摂動に一般化できるように、シミュレーション環境の物理パラメータをランダム化する。

研究者たちは、四足歩行と器用な操作プラットフォームでDrEurekaを評価し、その方法が多様なロボットとタスクに適用可能であることを示した。四足歩行のロコモーションでは、DrEurekaで訓練されたポリシーが、様々な実世界の評価地形で前方速度が34%、距離が20%向上し、従来の人間設計システムを上回った。また、ロボットハンドを用いた器用な操作では、DrEurekaで訓練された最良のポリシーが、与えられた固定時間内で人間が開発したポリシーの300%以上のキューブ回転を実現した。特に注目すべきは、ロボドッグがヨガボールの上でバランスを取りながら歩くという新しいタスクにDrEurekaを適用した結果、訓練されたポリシーが追加の設定なしで実世界に転送され、最小限の安全サポートで室内外の様々な地形で十分に機能したことである。研究者たちは、タスクの説明に含まれる安全指示が、LLMが実世界に転送可能な論理的な指示を生成する上で重要な役割を果たすと述べている。

【ニュース解説】

Nvidia、ペンシルベニア大学、テキサス大学オースティン校の科学者たちによる最新の研究では、大規模言語モデル(LLM)を活用して、ロボティクスシステムの訓練を人間を超える速度で行うことが可能であることが示されました。この研究で紹介された「DrEureka」という技術は、ロボティクスシステムのための報酬関数とランダム化分布を自動生成することができ、シミュレーション環境から実世界へのポリシー転送を人間が設計した報酬よりも迅速かつ効率的に行うことができます。

DrEurekaの目的は、シミュレーションと実世界環境の間に存在する「シム・トゥ・リアル」ギャップという課題に対処し、この転送プロセスにおける人間の労力を大幅に削減することです。この技術は、ロボットタスクの高レベルな説明から報酬関数を自動生成し、さらにドメインランダマイゼーション(DR)パラメータを自動設定することで、実世界の不確実性に対応できるロボティクスポリシーを学習します。

この研究では、四足歩行ロボットや器用な操作を行うロボットハンドなど、様々なロボットとタスクにDrEurekaを適用し、その有効性を実証しました。特に、ロボドッグがヨガボールの上でバランスを取りながら歩くという新しいタスクにおいて、DrEurekaで訓練されたポリシーが実世界での追加設定なしに機能し、室内外の様々な地形で十分に動作したことは、この技術のポテンシャルを示す興味深い結果です。

この技術のポジティブな側面としては、ロボティクスの研究と開発を加速させる可能性があります。人間の介入を最小限に抑えることで、より迅速に、かつ広範囲のタスクに対応するロボットの開発が可能になります。しかし、潜在的なリスクとしては、安全性の確保が挙げられます。自動生成された報酬関数やDRパラメータが、予期せぬ挙動を引き起こす可能性があるため、安全性に関する厳格な評価とテストが必要になります。

規制に与える影響としては、このような自動化技術の進展に伴い、ロボティクスシステムの設計と評価に関する新たな基準やガイドラインが必要になる可能性があります。将来的には、DrEurekaのような技術がロボティクスの分野におけるイノベーションを促進し、人間の生活を支援する多様なロボットの開発に貢献することが期待されます。しかし、その過程で、技術的、倫理的、規制的な課題に対処するための継続的な努力が求められるでしょう。

from Nvidia’s DrEureka outperforms humans in training robotics systems.

ホーム » ロボティクス » ロボティクスニュース » 大規模言語モデルがロボティクス訓練を加速、DrEureka技術で未来への一歩