advertisements

NVIDIAが「AIファクトリーのOS」Dynamo 1.0を公開—Blackwell GPUの推論性能が最大7倍に

NVIDIAは2026年3月16日、GTCにおいて、生成AIおよびエージェント型AIの大規模推論向けオープンソースソフトウェア「NVIDIA Dynamo 1.0」の正式リリースと、その広範なグローバル採用を発表した。

同ソフトウェアはAIファクトリーの分散型オペレーティングシステムとして機能し、NVIDIA Blackwell GPUの推論性能を最大7倍に向上させる。Amazon Web Services、Microsoft Azure、Google Cloud、Oracle Cloud Infrastructure(OCI)をはじめ、CoreWeave、Alibaba Cloud、Together AI、Nebius、Cursor、Perplexity、ByteDance、PayPal、Pinterest、SoftBank Corp.など、クラウドプロバイダーからグローバル企業まで幅広く採用されている。Dynamo 1.0は同日より、世界中の開発者が無償で利用可能となった。

From: 文献リンクNVIDIA Enters Production With Dynamo, the Broadly Adopted Inference Operating System for AI Factories

【編集部解説】

「AIファクトリーのOS」という表現は、単なるマーケティングコピーではありません。コンピューターのOSがCPUやメモリをアプリケーションに割り振るように、Dynamo 1.0はデータセンター内の数百、数千ものGPUと膨大なメモリを、AIの推論処理へと最適に振り分けるソフトウェアです。これまでこの役割を担うソフトウェアが業界標準として存在しなかったことを考えると、今回の発表の意味が見えてきます。

注目すべきは「最大7倍」という性能向上の数字です。これはSemiAnalysis InferenceXベンチマーク(2026年3月3日更新)において、DeepSeek R1-0528をFP4精度・1k/1kの条件で動かした際の測定値であり、NVIDIA GB200 NVL72上での「分散サービング+ワイドエキスパートパラレル」という特定の構成下での結果です。実際の現場では構成やモデルの種類によって異なるため、この数字を額面通りに受け取ることは避けるべきです。

Dynamoが解決しようとしている課題は、AIが「実験」から「本番運用」へと移行する際に生じる壁です。エージェント型AIは複数のモデルやツールを連携させながら動作するため、リクエストのサイズや処理の複雑さが予測不能なかたちで変化します。これを単一のGPUで処理しようとするのは、もはや現実的ではありません。Dynamoは「プリフィル(文脈の読み込み)」と「デコード(回答の生成)」を別々のGPUに分担させることで、この問題に対処します。

オープンソース戦略という点でも、この発表は見逃せません。NVIDIAは有償のライセンス収入を得るのではなく、無償でDynamoを公開することでエコシステム全体を自社の技術スタックに引き寄せています。AWS、Microsoft Azure、Google Cloud、OCIという4大クラウドすべてがすでにKubernetes環境に統合済みであり、vLLM、SGLang、LangChainといった主要なオープンソースフレームワークも対応を完了しています。ソフトウェアを無償にすることで、Blackwell GPUの購買意欲を高めるという、より大きなビジネスモデルが背景にあります。

一方で、潜在的なリスクも指摘できます。推論インフラがNVIDIAの一社のソフトウェア層に集約されることは、AIの重要インフラにおける単一障害点や技術的依存の深化を意味します。オープンソースであっても、設計思想や最適化はNVIDIAのハードウェアに向けてチューニングされており、AMD GPUや他のアクセラレーターとの互換性は現時点では限定的です。また、規制の観点では、AI推論インフラにおける市場支配力の集中として、各国の競争当局から注目される可能性も否定できません。

長期的に見れば、DynamoはNVIDIAがGPU販売企業からAIインフラ全体のプラットフォーム企業へと変貌を遂げる布石です。GTC 2026はCUDA誕生からちょうど20年という節目の年でもあり、CUDAが20年間にわたって開発者を取り込み続けたように、Dynamoが業界標準として定着すれば、NVIDIAのエコシステムからの離脱コストは飛躍的に高まります。「AIの時代のOS」という地位を、ハードウェアではなくソフトウェアで確立しようとする——その野心が、今回の発表には込められています。

【用語解説】

推論(Inference)
学習済みのAIモデルが、実際の入力データに対して回答や判断を生成するプロセス。「学習(Training)」がモデルを育てる工程であるのに対し、推論はそのモデルを実際に「使う」工程にあたる。ChatGPTへの質問への回答生成や、画像認識、コード補完など、AIサービスのすべての動作が推論にあたる。

エージェント型AI(Agentic AI)
人間の指示を単純に受けて回答するだけでなく、目標達成のために自律的に複数のステップを判断・実行するAIシステム。ウェブ検索、コード実行、他のAIモデルとの連携など、複数のツールを自ら組み合わせて複雑なタスクをこなす。

分散サービング/プリフィル・デコード分離
大規模なAI推論を複数のGPUに分担させる手法。「プリフィル」は入力テキスト(文脈)を読み込む処理、「デコード」は回答を一語ずつ生成する処理であり、この2つを別々のGPUに割り当てることで効率が大幅に向上する。Dynamoがパフォーマンスを最大7倍に高める主要な技術的根拠のひとつである。

KVキャッシュ(KV Cache)
AIが推論処理の途中で生成する「Key-Value」形式の中間データ。これを保持(キャッシュ)しておくことで、次のステップの計算を省力化できる。エージェント型AIや長い文脈を扱うモデルでは特に重要であり、Dynamoはこのキャッシュを効率的に管理・移動させる仕組みを持つ。

CUDA
NVIDIAが開発した、GPU上で汎用的な並列計算を行うためのプログラミングプラットフォーム。2006年に公開され、GTC 2026の開催年がちょうど20周年にあたる。AIの学習・推論において事実上の業界標準となっており、NVIDIAが現在の市場支配力を築いた最大の要因とも言われる。

SemiAnalysis InferenceX
半導体・AIインフラ分野の調査会社SemiAnalysisが提供するAI推論ベンチマーク。2026年3月3日更新のデータに基づき、Dynamoの最大7倍という性能向上の数値はこのベンチマーク(DeepSeek R1-0528、FP4精度、GB200 NVL72上)で計測されたものである。

NVIDIA GB200 NVL72
NVIDIAのBlackwellアーキテクチャに基づく大規模AIサーバーシステム。72基のBlackwell GPUをNVLinkで相互接続したラックスケールの構成であり、大規模な推論処理に特化した設計となっている。

【参考リンク】

NVIDIA Dynamo 公式ページ(外部)
Dynamo 1.0のドキュメント、導入ガイド、GitHubリポジトリへのリンクを掲載したNVIDIA公式ページ。

NVIDIA GTC 2026 基調講演ページ(公式)(外部)
Dynamo 1.0を含むNVIDIAの最新AIインフラ戦略が発表されたGTC 2026基調講演の公式ページ。

vLLM(外部)
LLMの高速推論を実現するオープンソースフレームワーク。DynamoのNIXLライブラリを活用してKVキャッシュ転送を高速化している。

CoreWeave(外部)
NVIDIA GPUを主力とするクラウドインフラ企業。AIワークロードの大規模本番デプロイに特化し、Dynamo 1.0の採用パートナー。

Together AI(外部)
大規模モデルの学習・推論・デプロイを提供するAIネイティブクラウド。Dynamo 1.0を推論スタックの一部として採用済み。

Perplexity(外部)
リアルタイムのウェブ情報と組み合わせた回答生成に強みを持つAI検索サービス。Dynamo 1.0採用のAIネイティブ企業。

SemiAnalysis InferenceX(外部)
半導体・AIインフラ専門の調査会社SemiAnalysisが提供するAI推論ベンチマーク。本記事の「最大7倍」数値の計測元。

【参考記事】

How NVIDIA Dynamo 1.0 Powers Multi-Node Inference at Production Scale(外部)
NVIDIA公式テクニカルブログ。7倍性能向上の測定条件、初期採用企業の実導入事例、ModelExpressによる起動高速化を詳述。

NVIDIA Dynamo 1.0 Ships With 7x Inference Boost for AI Data Centers(外部)
ベンチマーク条件の詳細、ストレージベンダーのKVキャッシュ統合、オープンソース戦略の背景を数値とともに分析。

NVIDIA GTC 2026: Rubin GPUs, Groq LPUs, Vera CPUs, and What NVIDIA Is Building for Trillion-Parameter Inference(外部)
GTC 2026全体の技術的総括。Dynamo 1.0をNVIDIAのフルスタック戦略の一部として位置づけ解説。

Nvidia Debuts Dynamo 1.0 as Operating System for AI Factories(外部)
AIの戦場がトレーニングから推論へシフトする構造変化を軸に、NVIDIAのソフトウェア戦略の意図を平易に分析。

NVIDIA GTC 2026: We’re a software company too(外部)
CUDA20周年を踏まえ、NVIDIAのソフトウェア戦略の歴史的連続性と長期的な市場支配力を「ソフトウェアの城壁」として論考。

【関連記事】

NVIDIA Dynamo:AI推論を最大30倍高速化する「AIファクトリーOS」が登場(内部)
GTC 2025で初めて発表されたDynamoの原点。今回のDynamo 1.0正式リリースの背景を知るうえで欠かせない記事です。

NVIDIA GTC 2026:ジェンスン・フアンが描く「1兆ドルのAI工場」時代(内部)
Dynamo 1.0と同日に発表されたGTC 2026全体の発表内容を俯瞰できる記事です。Vera RubinやGroq統合など、NVIDIAのフルスタック戦略を合わせて把握できます。

【編集部後記】

AIを「使う」時代から、AIを「動かし続ける」インフラをどう設計するかという時代へ——そんな転換点を、私たちはいま目撃しているのかもしれません。あなたの仕事や日常のなかで、AI推論の「速さ」や「コスト」を意識する場面はありますか? ぜひ、この記事をきっかけにそのあたりを考えてみてください。

投稿者アバター
Ami
テクノロジーは、もっと私たちの感性に寄り添えるはず。デザイナーとしての経験を活かし、テクノロジーが「美」と「暮らし」をどう豊かにデザインしていくのか、未来のシナリオを描きます。 2児の母として、家族の時間を豊かにするスマートホーム技術に注目する傍ら、実家の美容室のDXを考えるのが密かな楽しみ。読者の皆さんの毎日が、お気に入りのガジェットやサービスで、もっと心ときめくものになるような情報を届けたいです。もちろんMac派!

読み込み中…