MIT コンピュータサイエンス・人工知能研究所(CSAIL)の研究者らが、ロボットが単一のカメラのみで自身の身体を理解し制御する新システム「Neural Jacobian Fields(NJF)」を開発した。
この研究成果は2025年6月25日に学術誌『Nature』に掲載された。主要研究者は MIT 電気工学・コンピュータサイエンス博士課程学生の Sizhe Lester Li 氏で、指導教授は Vincent Sitzmann 助教授と Daniela Rus 教授である。
NJF システムはロボットがランダムな動作を実行する際に12台のRGB-Dカメラで記録し、視覚データのみから制御信号と身体の反応関係を学習する。訓練完了後は単眼カメラ1台で約12ヘルツのリアルタイム制御が可能だ。
研究チームは空気圧ソフトロボットハンド、剛性 Allegro ハンド、3D プリンテッドロボットアーム、回転プラットフォームで検証を実施した。この技術により従来必要だった埋め込みセンサーや複雑なプログラミングが不要となり、農業や建設現場での応用が期待される。
From: Robot, know thyself: New vision-based system teaches machines to understand their bodies
【編集部解説】
この技術の革新性を理解するために、まず従来のロボット制御がいかに複雑だったかを振り返る必要があります。産業用ロボットアームのような従来型ロボットは、剛体リンクと関節で構成され、数学的にモデル化しやすい構造を持っていました。しかし、ソフトロボットや生物模倣型ロボットの場合、材料が変形し、予測困難な動きをするため、従来の制御手法では限界がありました。
Neural Jacobian Fields(NJF)が画期的なのは、この根本的な課題を視覚学習で解決した点にあります。システムの核心となる「Jacobian場」とは、ロボットの任意の点が制御入力に対してどのように動くかを予測する数学的関数のことです。これをNeural Radiance Fields(NeRF)技術と組み合わせることで、3D形状と動特性を同時に学習可能にしました。
技術的な詳細について説明すると、訓練段階では12台のRGB-Dカメラでロボットのランダムな動作を記録します。しかし実際の制御時には、単眼カメラ1台で12Hzのリアルタイム制御を実現している点が実用性を大きく高めています。これは多くの物理ベースシミュレーターよりも高速で、実世界での応用を現実的なものにしています。
この技術によって可能になることは多岐にわたります。農業分野では、センチメートル級の精度で作物の収穫や選別が可能になり、建設現場では複雑なセンサー配列なしに不整地での作業ができるようになります。特に注目すべきは、従来センサー埋め込みが困難だった柔軟な材料や不規則な形状のロボットでも精密制御が実現できる点です。
ポジティブな側面として、このシステムは設計の自由度を劇的に拡張します。従来は制御の都合上、ロボットの形状や材料に制約がありましたが、NJFによってその制約が取り除かれました。また、将来的にはスマートフォンでの撮影だけで制御モデルを作成できる可能性も示唆されており、ロボティクスのアクセシビリティが大幅に向上する見込みです。
一方で、潜在的なリスクや限界も存在します。現時点では異なるロボット間での汎化ができず、各ロボットごとに個別の訓練が必要です。また、力や触覚センシング機能がないため、接触を伴う作業では効果が限定される可能性があります。オクルージョン(遮蔽)への対応や長期的な空間・時間推論能力の向上も今後の課題として挙げられています。
規制面での影響を考えると、従来のセンサー依存型ロボットとは異なる安全基準や認証プロセスが必要になる可能性があります。視覚ベースの制御システムでは、照明条件やカメラの視野角制限といった環境要因が性能に影響するため、これらを考慮した新たな安全規格の策定が求められるでしょう。
長期的な視点では、この技術はロボティクスの民主化を促進する可能性を秘めています。高価なセンサーや複雑なプログラミングが不要になることで、中小企業や個人開発者でもロボット開発に参入しやすくなります。また、AGI(汎用人工知能)の発展において、身体認識は重要な要素であり、NJFのような技術がその基盤を提供する意義は計り知れません。
【用語解説】
Neural Jacobian Fields(NJF)
ロボットの3次元形状と制御入力への感度を同時に学習するニューラルネットワーク技術。視覚情報のみからロボットの身体モデルを構築し、制御を可能にする。
Jacobian場
ロボットの任意の点が制御入力に対してどのように動くかを予測する数学的関数。微分幾何学における概念で、局所的な変形を表現する。
Neural Radiance Fields(NeRF)
画像から3Dシーンを再構築する深層学習技術。空間座標を色と密度値にマッピングすることで、多視点画像から3D表現を生成する。
デジタルツイン
物理的な対象物の正確な数学的複製。従来のロボット制御では、実機の動作を予測するために使用される仮想モデル。
クローズドループ制御
出力をセンサーで監視し、その情報を制御入力にフィードバックする制御方式。リアルタイムで状態を調整できる。
空気圧ソフトロボット
空気圧を利用して動作する柔軟な材料で作られたロボット。生物の筋肉のような動きを実現できる。
Allegro ハンド
韓国のWonik Robotics社が開発した多指ロボットハンド。16個のモーターを搭載し、人間の手に近い動作が可能。
【参考リンク】
MIT Computer Science and Artificial Intelligence Laboratory (CSAIL)(外部)
MITの最大の研究所で、世界最重要な情報技術研究センターの一つ。
Neural Jacobian Fields プロジェクトページ(外部)
研究の詳細、技術仕様、実験結果を掲載した公式プロジェクトページ。
GitHub – Neural Jacobian Fields(外部)
NJFシステムのソースコード、データセット、チュートリアルを提供。
Nature論文(外部)
Neural Jacobian Fieldsに関する原著論文。技術的詳細の完全版を掲載。
【参考動画】
【参考記事】
Controlling diverse robots by inferring Jacobian fields with deep networks
(外部)Nature誌に掲載された原著論文。技術的な実装詳細を学術的観点から詳述。
Neural Jacobian Fields プロジェクトページ(外部)
研究者による公式プロジェクトページ。ビデオ、コード、技術解説を含む包括的リソース。
【編集部後記】
今回のMITの研究を通じて、ロボットが「自分の身体を知る」という概念について改めて考えさせられました。私たちが当たり前のように行っている身体の動きも、実は視覚と経験の積み重ねから生まれているのかもしれません。
皆さんは、この技術が普及した未来をどのように想像されますか?スマートフォンでロボットを「教育」できる時代が来たとき、どんな課題を解決したいと思われるでしょうか。また、ロボットが人間のような身体認識を持つことに対して、どのような期待や不安をお感じになりますか?
私たちinnovaTopia編集部も、読者の皆さんと一緒にこの技術革新の意味を考え続けていきたいと思います。ぜひSNSで、皆さんの率直なご意見をお聞かせください。