Nvidiaが率いる研究チームは2026年2月、ロボット用AI世界モデルDreamDojoをリリースした。UC Berkeley、Stanford、University of Texas at Austinなどが協力した研究では、44,000時間の人間の一人称視点動画で構成されるDreamDojo-HVデータセットを使用している。
このデータセットは従来最大のものと比較して期間は15倍、スキルは96倍、シーンは2,000倍である。システムは10 FPSで1分以上のリアルタイム相互作用を実現し、GR-1、G1、AgiBot、YAMのヒューマノイドロボットで動作が実証された。
NvidiaのCEOジェンセン・フアンは先月のダボスでのWorld Economic ForumでAIロボティクスを一世代に一度の機会と述べた。2025年のロボティクススタートアップの調達額は265億ドルに達し、今年のテクノロジー業界の資本支出は6,600億ドルに達する可能性がある。
研究チームはリンシー・ファン、ジョエル・ジャン、ユーク・ジューらが率いた。
From:
Nvidia releases DreamDojo, a robot ‘world model’ trained on 44,000 hours of human video
【編集部解説】
DreamDojoが取り組んでいるのは「世界モデル(World Model)」と呼ばれる技術領域です。これはロボットが物理世界での行動の結果を予測するための内部シミュレーターのようなもので、実際に動作させる前に「こう動けばこうなる」を頭の中で試せる能力といえます。
従来のロボット学習では、特定のロボットで何千回も試行錯誤を繰り返してデータを集める必要がありました。しかしDreamDojoは発想を転換し、44,000時間という膨大な人間の一人称視点動画から物理法則そのものを学習させています。人間とロボットでは体の構造が違っても、物体を掴んだり動かしたりする際の物理法則は共通だからです。
このスケールの大きさは特筆に値します。例えば2024年に発表された1X社の世界モデルは900時間の動画を使用していましたが、DreamDojoは約49倍のデータ量になります。データセットの規模が従来比で期間15倍、スキル96倍、シーン2,000倍という数字は、多様性の面でも飛躍的な進化を示しています。
技術的なブレークスルーは2段階学習プロセスにあります。第1段階で人間の動画から一般的な物理知識を獲得し、第2段階で特定のロボットハードウェアに合わせて微調整する手法です。これにより、新しいロボットプラットフォームへの適用コストを大幅に削減できる可能性があります。
実用面では、10 FPSでの1分以上のリアルタイムシミュレーションが可能になった点が重要です。これにより、コストのかかる実機テストを行う前に、仮想環境で動作を検証できます。製造現場への導入を検討する企業にとって、試行錯誤のコストを劇的に下げられる意義は大きいでしょう。
ただし、シミュレーションと現実世界のギャップ(Sim-to-Real Gap)は依然として課題です。制御された環境で完璧に動作しても、実際の工場や家庭では予期しない状況が頻発します。DreamDojoがこのギャップをどこまで埋められるかは、今後の検証が必要になります。
Nvidiaのジェンセン・フアンCEOが「人類史上最大のインフラ構築」と表現した6,600億ドル規模の投資は、単なるレトリックではありません。2025年にロボティクススタートアップが調達した265億ドルという数字が示すように、産業界はヒューマノイドロボットの実用化に本気です。
長期的には、この技術は製造業だけでなく、介護、物流、災害対応など幅広い分野に影響を与える可能性があります。ロボットが人間の動作を観察して学ぶという発想は、機械が私たちの世界をより深く理解する新たな扉を開くものといえるでしょう。
【用語解説】
世界モデル(World Model)
ロボットが物理世界での行動結果を予測するための内部シミュレーションシステム。実際に動作させる前に「こう動けばこうなる」を仮想的に試せる能力を指す。
一人称視点動画
カメラを装着した人間の視点から撮影された動画。人間が日常生活で物体を操作する様子を、その人の目線で記録したもの。ロボット学習において、人間の行動パターンを学習するためのデータソースとして活用される。
Sim-to-Real Gap(シミュレーション・リアルギャップ)
シミュレーション環境で完璧に動作するロボットが、現実世界では同じように機能しない問題。照明条件、物体の質感、予期しない障害物など、実世界の複雑さをシミュレーションで完全に再現することの難しさを表す概念。
FPS(Frames Per Second)
1秒間に処理できるフレーム(画像)の数。DreamDojoでは10 FPSでのリアルタイム相互作用を実現しており、これはロボットが0.1秒ごとに状況を判断し動作を更新できることを意味する。
【参考リンク】
DreamDojo公式プロジェクトページ(外部)
NvidiaらによるDreamDojoプロジェクトの公式サイト。研究概要、技術詳細、デモ動画などが掲載されている。
Nvidia公式サイト(外部)
GPU、AI技術のリーディングカンパニー。DreamDojoプロジェクトを主導し、ロボティクス分野への投資を拡大している。
arXiv論文ページ(外部)
DreamDojoに関する学術論文の全文が閲覧可能。技術的な詳細、実験結果、データセットの構成などが記載されている。
Fourier Intelligence – GR-1(外部)
シンガポールのFourier Intelligence社が開発したヒューマノイドロボットGR-1の製品ページ。GR-1は44ジョイント(関節)構成とされる。
Unitree Robotics – G1(外部)
中国のUnitree Robotics社が開発したヒューマノイドロボットG1。23自由度を持ち、最高速度は秒速2メートル。
AgiBot(外部)
上海を拠点とする中国のロボティクス企業。2025年末までに5,000台のヒューマノイドロボットを出荷した。
【参考動画】
Fourier Intelligence’s GR-1: Igniting a New Wave of Innovation in Robotics
Fourier Intelligence公式チャンネルによるGR-1の紹介動画。ロボットの動作能力や特徴が実際の映像で確認できる。
Chinese robotics firm Agibot trains AI-powered humanoid robots to learn like humans
ShanghaiEye(上海メディアグループ)によるAgiBot社の取材動画。100台近いヒューマノイドロボットが1日17時間トレーニングを受ける様子を紹介。
【参考記事】
DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos(arXiv論文)(外部)
DreamDojoの技術論文。44,000時間の人間の一人称視点動画で訓練された世界モデルの詳細を記述している。
1X World Model | From Video to Action: A New Way Robots Learn(外部)
1X社による世界モデルの解説記事。ロボットが動画から学習する仕組みを説明している。
A Comprehensive Survey on World Models for Embodied AI(外部)
エンボディドAIにおける世界モデルの包括的なサーベイ論文。世界モデルの理論的背景、技術的課題を詳述。
Fourier Intelligence launches production version of GR-1 humanoid robot(外部)
GR-1ヒューマノイドロボットの製品版リリースを報じる記事。災害救助や高齢者ケアへの応用可能性を説明。
AgiBot First to Ship 5,000 Humanoid Robots(外部)
AgiBot社が2025年に5,000台のヒューマノイドロボットを出荷したことを報じる記事。
【編集部後記】
ロボットが私たちの動作を「観察」して学ぶという発想は、どこか不思議な感覚を覚えませんか。44,000時間分の人間の視点映像——それは誰かの日常であり、何気ない手の動きであり、物との関わり方そのものです。
みなさんは、ロボットがどんな場面で活躍してほしいと思いますか?製造現場での効率化でしょうか、それとも介護や災害救助のような人の手が足りない領域でしょうか。この技術がどう進化し、私たちの生活にどう溶け込んでいくのか、一緒に見守っていきたいですね。







がもたらす「アンテザード・ソサエティ」の衝撃-300x200.png)





























