SF作品では昔から、ロボットは行動の前に「考える」存在として描かれてきました。その情景が、いま現実のものになろうとしています。NVIDIAは2026年5月31日、フィジカルAI向けの世界基盤モデル「NVIDIA Cosmos 3」を、台湾で開かれたGTC Taipei(COMPUTEX 2026)で発表しました。物理的な推論、世界の生成、行動の生成という3つの能力を、ひとつのオープンなモデルに統合した点が最大の特徴です。アーキテクチャにはMixture-of-Transformers(MoT)を採用し、状況を解釈する「Reasonerタワー」と、未来の映像や行動を生成する「Generatorタワー」を二塔構造で連結しています。
NVIDIAは2026年5月31日、フィジカルAI向けの世界基盤モデル「NVIDIA Cosmos 3」を発表しました。台湾で開かれたGTC Taipei(COMPUTEX 2026)での発表で、物理的な推論、世界の生成、行動の生成という3つの能力を、ひとつのオープンなモデルに統合した点が最大の特徴です。アーキテクチャにはMixture-of-Transformers(MoT)を採用し、状況を解釈する「Reasonerタワー」と、未来の映像や行動を生成する「Generatorタワー」を二塔構造で連結しています。
モデルは「Cosmos 3 Nano」と「Cosmos 3 Super」、さらに近日提供予定の「Cosmos 3 Edge」を揃えます。なお、パラメータ数はNVIDIA Developer BlogとGitHub上の公開モデル一覧で表記に差があるため、本記事ではモデル名を中心に記載します。テキスト・画像・動画・環境音・行動を扱うオムニモデルで、訓練・評価のサイクルを数カ月から数日へ短縮するとされます。NVIDIAはモデルチェックポイント、学習スクリプト、6つの合成データ生成データセットをHugging FaceとGitHubで公開しました。VANTAGE-Bench、R-Bench、Physics-IQといったベンチマークで、オープンモデルの中で首位級の結果を示しており、サムスンやLG Electronics、Li Autoらが活用・開発を進めています。
From:
Develop Physical AI Reasoning, World, and Action Models with NVIDIA Cosmos 3

【編集部解説】
まず押さえておきたいのは、このCosmos 3が単なる開発者向けツールの更新ではなく、台湾で開かれたGTC Taipei(COMPUTEX 2026)で、ファウンダー兼CEOのジェンスン・フアン氏が基調講演でぶち上げた目玉発表だという点です。技術ブログだけを読むと一手法の解説に見えますが、実態はNVIDIAの「次の主戦場」を宣言する一手と捉えるのが正確でしょう。
その主戦場が「フィジカルAI」です。言葉や画像を扱うAIは、もはや珍しくありません。難しいのは、現実世界で「次に何が起こるか」を理解し、身体を動かして対処することです。フォークリフトがどこへ向かうかを予測する、駐車車両の陰から歩行者が飛び出す状況に備える──こうした現実の挙動を、安全に、何度でも、大規模に再現するのは従来きわめて困難でした。
Cosmos 3の核心は、この「予測」と「行動」を一つのモデルに束ねた点にあります。技術的には、シーンを解釈する推論側(Reasoner)と、未来を生成する生成側(Generator)を二塔構造で連結したMixture-of-Transformersという設計です。難しく聞こえますが、要は「まず状況を理解する頭脳が考え、その理解を受けて手足の動きを描き出す」という、人間に近い順序を機械に持たせた、と捉えれば十分でしょう。
なお、Cosmos 3はテキストや映像だけでなく、環境音(ambient sound)までを一つのモデルで扱える「オムニモデル」でもあります。物音から状況を察するという、私たちが無意識に行っている知覚にも一歩近づいているわけです。
さらに注目したいのは、関節角度やグリッパーの位置といった「数値の行動データ」まで生成できる点です。ロボットは映像を見せられるだけでは動けません。「どう手を伸ばし、掴み、置くか」という信号が要る。そこを合成データとして大量に作り出せるなら、現実で何千回も実演を撮影するコストを劇的に圧縮できます。
なお、モデルは2種類だけではありません。NVIDIA Developer Blogでは、ワークステーション級で動くNano、データセンター向けで最高品質のSuperに加え、端末側でのリアルタイム推論を狙う「Cosmos 3 Edge」が近日提供と予告されています。クラウドの大型モデルから手元のエッジ機器まで、用途に応じて使い分けられる布陣が敷かれたわけです。
そしてもう一つの肝が「オープンソース化」です。NVIDIAはモデル本体・学習スクリプト・6つのデータセットまでをHugging FaceとGitHubで公開し、Linux FoundationのOpenMDW 1.1という単一ライセンスで配布します。加えてAgile Robots、Black Forest Labs、Runway、Skild AIらと「Cosmos Coalition」を結成しました。ハードウェアで圧倒的優位を持つNVIDIAが、ソフトウェアの「事実上の標準」も押さえにきた、と読めます。
利用企業の顔ぶれも見逃せません。報道によれば、サムスン、LG Electronics、Doosan Robotics、自動運転のLi Autoらが、このプラットフォーム上で開発を進めています。日本の読者にとっては、製造業やロボティクスの現場が、こうした世界モデルを前提に再設計されていく未来が、もう絵空事ではないと実感できる材料になるはずです。
一方で、慎重に見るべき側面もあります。合成データで「めったに起きない事故」まで作れるということは、裏を返せば、現実とそっくりな偽映像を量産できる技術でもあります。倉庫の爆発シーンや交通事故の生成例は安全訓練のためのものですが、同じ仕組みが悪用される懸念は拭えません。物理世界をシミュレートするAIをどう律するか、その議論はまだ緒に就いたばかりです。
長期的に見れば、これは「LLMが言語にもたらした革命を、ロボティクスにもたらす」という賭けでしょう。フアン氏自身が、かねて「ロボティクスのChatGPTの瞬間が来る」という比喩を繰り返してきました。実現すれば、汎用的な「ロボットの脳」が共通基盤として広がり、開発の主導権が一握りの巨大企業から、無数の開発者へと開かれていくかもしれません。
その裏付けとなるのが、学習データの桁違いの規模です。NVIDIAによれば、テキスト・画像・動画・音声・行動の軌跡にわたる数十億規模のサンプルで訓練され、これは史上最大級のマルチモーダル・フィジカルAIデータセットの一つだとされます。開発者は、より少ないデータと低い訓練コストで自社の用途に適応させられる──訓練・評価のサイクルを数カ月から数日へ縮めるという主張は、ここに根拠を持っています。
私がこの記事を今お届けする理由は、まさにそこにあります。フィジカルAIは「未来の話」から「いま触れられる技術」へと足を踏み入れました。期待と不安の両方を見据えながら、この一歩をどう捉えるか──その判断材料を、できるだけ早く分かち合いたいと考えたのです。
【用語解説】
フィジカルAI(Physical AI)
現実の物理世界で知覚・予測・行動するAIの総称である。言語や画像の処理にとどまらず、ロボットや自動運転車が「次に何が起こるか」を理解し、身体を動かして対処することを目指す領域を指す。
世界基盤モデル(World Foundation Model / WFM)
物理環境をシミュレートし、未来の世界の状態を予測する基盤モデルのこと。学習データの大量生成や、開発したモデルの評価に用いられる。
Mixture-of-Transformers(MoT)
複数のTransformerを組み合わせる設計手法である。Cosmos 3では、状況を解釈する推論側(Reasoner)と、未来を生成する生成側(Generator)を二塔構造で連結している。
Reasonerタワー / Generatorタワー
Cosmos 3を構成する2つの中核ブロックを指す。Reasonerは画像・動画・テキストを解釈する視覚言語モデル(VLM)、Generatorは拡散方式で動画や行動を生成する部分である。
視覚言語モデル(VLM)
画像・動画とテキストを同時に扱い、内容を理解・説明できるAIモデルのこと。Cosmos 3のReasonerタワーがこれにあたる。
オムニモデル(Omnimodel)
テキスト・画像・動画・環境音・行動という複数のモダリティを、一つのモデルで理解・生成できるモデルを指す。NVIDIAはCosmos 3を「世界初の完全オープンなオムニモデル」と位置づけている。
合成データ生成(SDG / Synthetic Data Generation)
現実で撮影する代わりに、AIが人工的に学習用データを作り出す手法である。事故などの稀なケースを安全かつ大量に再現できる利点がある。
事後学習(ポストトレーニング)
完成済みの基盤モデルを、特定の用途やデータに合わせて追加調整する工程のこと。教師ありファインチューニング(SFT)などが含まれる。
HUE(NVIDIA Cosmos Human Evaluation)
動画生成の品質を、イエス/ノー形式の事実検証へ分解して評価する枠組みである。主観的な採点に頼らず、モデル間の細かな比較を可能にする。
Cosmos Coalition
NVIDIAがCosmos 3発表に合わせて結成した連合体のこと。Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIらが参加し、オープンな世界モデルの発展を目指す。
OpenMDW 1.1
Linux Foundationが管理する、モデル中心のオープンライセンスである。重み・アーキテクチャ・データセット・コードなどを単一ライセンスで扱えるようにするもの。
ジェンスン・フアン氏
NVIDIAの創業者兼CEO。今回のCosmos 3を、台湾のGTC Taipei(COMPUTEX 2026)の基調講演で発表した人物である。
【参考リンク】
NVIDIA Cosmos(公式製品ページ)(外部)
フィジカルAI開発を加速する世界基盤モデルのプラットフォーム。製品概要や対応用途、関連リソースがまとまっている。
NVIDIA Cosmos(GitHub)(外部)
Cosmosのコードやサンプルを公開するリポジトリ。開発者が事後学習や合成データ生成にすぐ着手できる。
NVIDIA Cosmos 3 collection(Hugging Face)(外部)
Cosmos 3のモデルチェックポイントを配布するページ。ダウンロードや仕様確認ができる。
build.nvidia.com(NVIDIA NIM / モデル体験)(外部)
Cosmos 3を含むモデルをブラウザ上で試せるNVIDIAのプラットフォーム。NIMマイクロサービスの入り口でもある。
Hugging Face(AIモデル共有プラットフォーム)(外部)
AIモデルやデータセットを公開・共有するサービス。Cosmos 3のモデルやデータセットが配布されている。
【参考記事】
NVIDIA Launches Cosmos 3, the Open Frontier Foundation Model for Physical AI(外部)
NVIDIA公式リリース。第3のモデルCosmos 3 Edge、数十億規模の学習データ、Cosmos Coalition結成など本解説の主要事実の出典。
How Cosmos 3 Helps Physical AI Think Before It Acts(外部)
GTC Taipeiでの発表や、関節角度などの数値行動データ生成、OpenMDW 1.1での配布、活用事例を解説したNVIDIA公式ブログ。
Nvidia Launches Cosmos 3 at Computex(外部)
独立系メディアの報道。フアン氏のCOMPUTEX発表と、5モダリティを単一モデルで扱う意義を整理している。
【関連記事】
SoftBank・ホンダ・ソニーが挑む「フィジカルAI」連合|日本が狙うソブリンAIの勝算
世界(NVIDIA)の動きと対をなす日本の国家戦略。本記事と並べると官民の構図が立体的に見える。
本日リリース!NVIDIA Cosmos:物理世界対応型AIとは?
初代Cosmosの実機検証レポート。Cosmos 3までの技術的な歩みと進化を辿る出発点になる。
CES 2026振り返り:AIは「生成」から「行動」へ――フィジカルAIが現実世界を書き換え始めた4日間
フアンCEOのフィジカルAI構想を俯瞰。Cosmos 3がこの潮流のどこに位置するかを掴める。
【編集部後記】
「行動の前に、頭の中で未来を一度シミュレートする」――Cosmos 3が機械に与えようとしているこの能力は、私がSF作品の中で何度も出会ってきた知性の姿そのものです。物語の中の人型ロボットが一瞬沈黙し、次の動きを思い描いてから踏み出す。あの間(ま)が、技術として立ち上がりつつあることに、静かな興奮を覚えます。
同時に考えてしまうのは、こうしたAIが「世界の見え方」を私たちとどこまで共有するのか、という問いです。物音や情景から次に起こることを予測する知性は、人の認知に近づく一方で、人とは違う論理で世界を組み立てているのかもしれません。みなさんは、考えてから動くロボットが最初に活躍する舞台は、工場でしょうか、それとも物語の中で見たような、もっと予想外の場所でしょうか。よければ、思い描いた風景を聞かせてください。一緒に未来の輪郭をなぞってみたいです。












