ーTech for Human Evolutionー

NVIDIA Cosmos 3が変えるロボット開発｜推論・生成・行動を統合したオープン基盤モデル

AI（人工知能）ニュース｜モビリティーニュース｜ロボティクスニュース

Cosmos 3　フィジカルAI　NVIDIA　Headline News

乗杉海

[公開]

2026年6月2日6:00

NVIDIA Cosmos 3が変えるロボット開発｜推論・生成・行動を統合したオープン基盤モデル - innovaTopia

SF作品では昔から、ロボットは行動の前に「考える」存在として描かれてきました。その情景が、いま現実のものになろうとしています。NVIDIAは2026年5月31日、フィジカルAI向けの世界基盤モデル「NVIDIA Cosmos 3」を、台湾で開かれたGTC Taipei（COMPUTEX 2026）で発表しました。物理的な推論、世界の生成、行動の生成という3つの能力を、ひとつのオープンなモデルに統合した点が最大の特徴です。アーキテクチャにはMixture-of-Transformers（MoT）を採用し、状況を解釈する「Reasonerタワー」と、未来の映像や行動を生成する「Generatorタワー」を二塔構造で連結しています。

NVIDIAは2026年5月31日、フィジカルAI向けの世界基盤モデル「NVIDIA Cosmos 3」を発表しました。台湾で開かれたGTC Taipei（COMPUTEX 2026）での発表で、物理的な推論、世界の生成、行動の生成という3つの能力を、ひとつのオープンなモデルに統合した点が最大の特徴です。アーキテクチャにはMixture-of-Transformers（MoT）を採用し、状況を解釈する「Reasonerタワー」と、未来の映像や行動を生成する「Generatorタワー」を二塔構造で連結しています。

モデルは「Cosmos 3 Nano」と「Cosmos 3 Super」、さらに近日提供予定の「Cosmos 3 Edge」を揃えます。なお、パラメータ数はNVIDIA Developer BlogとGitHub上の公開モデル一覧で表記に差があるため、本記事ではモデル名を中心に記載します。テキスト・画像・動画・環境音・行動を扱うオムニモデルで、訓練・評価のサイクルを数カ月から数日へ短縮するとされます。NVIDIAはモデルチェックポイント、学習スクリプト、6つの合成データ生成データセットをHugging FaceとGitHubで公開しました。VANTAGE-Bench、R-Bench、Physics-IQといったベンチマークで、オープンモデルの中で首位級の結果を示しており、サムスンやLG Electronics、Li Autoらが活用・開発を進めています。

From: Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3

【編集部解説】

まず押さえておきたいのは、このCosmos 3が単なる開発者向けツールの更新ではなく、台湾で開かれたGTC Taipei（COMPUTEX 2026）で、ファウンダー兼CEOのジェンスン・フアン氏が基調講演でぶち上げた目玉発表だという点です。技術ブログだけを読むと一手法の解説に見えますが、実態はNVIDIAの「次の主戦場」を宣言する一手と捉えるのが正確でしょう。

その主戦場が「フィジカルAI」です。言葉や画像を扱うAIは、もはや珍しくありません。難しいのは、現実世界で「次に何が起こるか」を理解し、身体を動かして対処することです。フォークリフトがどこへ向かうかを予測する、駐車車両の陰から歩行者が飛び出す状況に備える──こうした現実の挙動を、安全に、何度でも、大規模に再現するのは従来きわめて困難でした。

Cosmos 3の核心は、この「予測」と「行動」を一つのモデルに束ねた点にあります。技術的には、シーンを解釈する推論側（Reasoner）と、未来を生成する生成側（Generator）を二塔構造で連結したMixture-of-Transformersという設計です。難しく聞こえますが、要は「まず状況を理解する頭脳が考え、その理解を受けて手足の動きを描き出す」という、人間に近い順序を機械に持たせた、と捉えれば十分でしょう。

なお、Cosmos 3はテキストや映像だけでなく、環境音（ambient sound）までを一つのモデルで扱える「オムニモデル」でもあります。物音から状況を察するという、私たちが無意識に行っている知覚にも一歩近づいているわけです。

さらに注目したいのは、関節角度やグリッパーの位置といった「数値の行動データ」まで生成できる点です。ロボットは映像を見せられるだけでは動けません。「どう手を伸ばし、掴み、置くか」という信号が要る。そこを合成データとして大量に作り出せるなら、現実で何千回も実演を撮影するコストを劇的に圧縮できます。

なお、モデルは2種類だけではありません。NVIDIA Developer Blogでは、ワークステーション級で動くNano、データセンター向けで最高品質のSuperに加え、端末側でのリアルタイム推論を狙う「Cosmos 3 Edge」が近日提供と予告されています。クラウドの大型モデルから手元のエッジ機器まで、用途に応じて使い分けられる布陣が敷かれたわけです。

そしてもう一つの肝が「オープンソース化」です。NVIDIAはモデル本体・学習スクリプト・6つのデータセットまでをHugging FaceとGitHubで公開し、Linux FoundationのOpenMDW 1.1という単一ライセンスで配布します。加えてAgile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIと「Cosmos Coalition」を結成しました。ハードウェアで圧倒的優位を持つNVIDIAが、ソフトウェアの「事実上の標準」も押さえにきた、と読めます。

利用企業の顔ぶれも見逃せません。報道によれば、サムスン、LG Electronics、Doosan Robotics、自動運転のLi Autoらが、このプラットフォーム上で開発を進めています。日本の読者にとっては、製造業やロボティクスの現場が、こうした世界モデルを前提に再設計されていく未来が、もう絵空事ではないと実感できる材料になるはずです。

一方で、慎重に見るべき側面もあります。合成データで「めったに起きない事故」まで作れるということは、裏を返せば、現実とそっくりな偽映像を量産できる技術でもあります。倉庫の爆発シーンや交通事故の生成例は安全訓練のためのものですが、同じ仕組みが悪用される懸念は拭えません。物理世界をシミュレートするAIをどう律するか、その議論はまだ緒に就いたばかりです。

長期的に見れば、これは「LLMが言語にもたらした革命を、ロボティクスにもたらす」という賭けでしょう。フアン氏自身が、かねて「ロボティクスのChatGPTの瞬間が来る」という比喩を繰り返してきました。実現すれば、汎用的な「ロボットの脳」が共通基盤として広がり、開発の主導権が一握りの巨大企業から、無数の開発者へと開かれていくかもしれません。

その裏付けとなるのが、学習データの桁違いの規模です。NVIDIAによれば、テキスト・画像・動画・音声・行動の軌跡にわたる数十億規模のサンプルで訓練され、これは史上最大級のマルチモーダル・フィジカルAIデータセットの一つだとされます。開発者は、より少ないデータと低い訓練コストで自社の用途に適応させられる──訓練・評価のサイクルを数カ月から数日へ縮めるという主張は、ここに根拠を持っています。

私がこの記事を今お届けする理由は、まさにそこにあります。フィジカルAIは「未来の話」から「いま触れられる技術」へと足を踏み入れました。期待と不安の両方を見据えながら、この一歩をどう捉えるか──その判断材料を、できるだけ早く分かち合いたいと考えたのです。

【用語解説】

フィジカルAI（Physical AI）
現実の物理世界で知覚・予測・行動するAIの総称である。言語や画像の処理にとどまらず、ロボットや自動運転車が「次に何が起こるか」を理解し、身体を動かして対処することを目指す領域を指す。

世界基盤モデル（World Foundation Model / WFM）
物理環境をシミュレートし、未来の世界の状態を予測する基盤モデルのこと。学習データの大量生成や、開発したモデルの評価に用いられる。

Mixture-of-Transformers（MoT）
複数のTransformerを組み合わせる設計手法である。Cosmos 3では、状況を解釈する推論側（Reasoner）と、未来を生成する生成側（Generator）を二塔構造で連結している。

Reasonerタワー / Generatorタワー
Cosmos 3を構成する2つの中核ブロックを指す。Reasonerは画像・動画・テキストを解釈する視覚言語モデル（VLM）、Generatorは拡散方式で動画や行動を生成する部分である。

視覚言語モデル（VLM）
画像・動画とテキストを同時に扱い、内容を理解・説明できるAIモデルのこと。Cosmos 3のReasonerタワーがこれにあたる。

オムニモデル（Omnimodel）
テキスト・画像・動画・環境音・行動という複数のモダリティを、一つのモデルで理解・生成できるモデルを指す。NVIDIAはCosmos 3を「世界初の完全オープンなオムニモデル」と位置づけている。

合成データ生成（SDG / Synthetic Data Generation）
現実で撮影する代わりに、AIが人工的に学習用データを作り出す手法である。事故などの稀なケースを安全かつ大量に再現できる利点がある。

事後学習（ポストトレーニング）
完成済みの基盤モデルを、特定の用途やデータに合わせて追加調整する工程のこと。教師ありファインチューニング（SFT）などが含まれる。

HUE（NVIDIA Cosmos Human Evaluation）
動画生成の品質を、イエス/ノー形式の事実検証へ分解して評価する枠組みである。主観的な採点に頼らず、モデル間の細かな比較を可能にする。

Cosmos Coalition
NVIDIAがCosmos 3発表に合わせて結成した連合体のこと。Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIが参加し、オープンな世界モデルの発展を目指す。

OpenMDW 1.1
Linux Foundationが管理する、モデル中心のオープンライセンスである。重み・アーキテクチャ・データセット・コードなどを単一ライセンスで扱えるようにするもの。

ジェンスン・フアン氏
NVIDIAの創業者兼CEO。今回のCosmos 3を、台湾のGTC Taipei（COMPUTEX 2026）の基調講演で発表した人物である。

【参考リンク】

NVIDIA Cosmos（公式製品ページ）（外部）
フィジカルAI開発を加速する世界基盤モデルのプラットフォーム。製品概要や対応用途、関連リソースがまとまっている。

NVIDIA Cosmos（GitHub）（外部）
Cosmosのコードやサンプルを公開するリポジトリ。開発者が事後学習や合成データ生成にすぐ着手できる。

NVIDIA Cosmos 3 collection（Hugging Face）（外部）
Cosmos 3のモデルチェックポイントを配布するページ。ダウンロードや仕様確認ができる。

build.nvidia.com（NVIDIA NIM / モデル体験）（外部）
Cosmos 3を含むモデルをブラウザ上で試せるNVIDIAのプラットフォーム。NIMマイクロサービスの入り口でもある。

Hugging Face（AIモデル共有プラットフォーム）（外部）
AIモデルやデータセットを公開・共有するサービス。Cosmos 3のモデルやデータセットが配布されている。

【参考記事】

NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI（外部）
NVIDIA公式リリース。第3のモデルCosmos 3 Edge、数十億規模の学習データ、Cosmos Coalition結成など本解説の主要事実の出典。

How Cosmos 3 Helps Physical AI Think Before It Acts（外部）
GTC Taipeiでの発表や、関節角度などの数値行動データ生成、OpenMDW 1.1での配布、活用事例を解説したNVIDIA公式ブログ。

Nvidia Launches Cosmos 3 at Computex（外部）
独立系メディアの報道。フアン氏のCOMPUTEX発表と、5モダリティを単一モデルで扱う意義を整理している。

【関連記事】

SoftBank・ホンダ・ソニーが挑む「フィジカルAI」連合｜日本が狙うソブリンAIの勝算
世界（NVIDIA）の動きと対をなす日本の国家戦略。本記事と並べると官民の構図が立体的に見える。

本日リリース！NVIDIA Cosmos：物理世界対応型AIとは？
初代Cosmosの実機検証レポート。Cosmos 3までの技術的な歩みと進化を辿る出発点になる。

CES 2026振り返り：AIは「生成」から「行動」へ――フィジカルAIが現実世界を書き換え始めた4日間
フアンCEOのフィジカルAI構想を俯瞰。Cosmos 3がこの潮流のどこに位置するかを掴める。

【編集部後記】

「行動の前に、頭の中で未来を一度シミュレートする」――Cosmos 3が機械に与えようとしているこの能力は、私がSF作品の中で何度も出会ってきた知性の姿そのものです。物語の中の人型ロボットが一瞬沈黙し、次の動きを思い描いてから踏み出す。あの間（ま）が、技術として立ち上がりつつあることに、静かな興奮を覚えます。

同時に考えてしまうのは、こうしたAIが「世界の見え方」を私たちとどこまで共有するのか、という問いです。物音や情景から次に起こることを予測する知性は、人の認知に近づく一方で、人とは違う論理で世界を組み立てているのかもしれません。みなさんは、考えてから動くロボットが最初に活躍する舞台は、工場でしょうか、それとも物語の中で見たような、もっと予想外の場所でしょうか。よければ、思い描いた風景を聞かせてください。一緒に未来の輪郭をなぞってみたいです。

AI（人工知能）ニュース｜モビリティーニュース｜ロボティクスニュース

Cosmos 3　フィジカルAI　NVIDIA　Headline News

乗杉海

SF小説やゲームカルチャーをきっかけに、エンターテインメントとテクノロジーが交わる領域を探究しているライターです。 SF作品が描く未来社会や、ビデオゲームが生み出すメタフィクション的な世界観に刺激を受けてきました。現在は、AI生成コンテンツやVR/AR、インタラクティブメディアの進化といったテーマを幅広く取り上げています。デジタルエンターテインメントの未来が、人の認知や感情にどのように働きかけるのかを分析しながら、テクノロジーが切り開く新しい可能性を追いかけています。

記事一覧