AIが「答える」だけの時代は、もう終わりかもしれません。計画を立て、自分でツールを使い、何百ターンも作業を続ける——そんな「自律エージェント」が現実味を帯びるなか、NVIDIAがその土台となる新しいオープンモデルを公開しました。速く、安く、そして中身まで開かれたこのモデルは、AIの使われ方をどう変えるのでしょうか。
NVIDIAは2026年6月4日、オープンモデル「NVIDIA Nemotron 3 Ultra」を公開した。総5,500億パラメータのMixture-of-Expertsモデルで、アクティブパラメータは550億。長時間稼働エージェントの編成と推論を担う。同クラスのオープンモデル比で最大5倍のスループットを実現し、SWE-bench等でエージェントタスクのコストを最大30%削減する。
ハイブリッドMamba Transformer、NVFP4精度、LatentMoE、マルチトークン予測を採用。10を超える専門ティーチャーから学ぶMOPDで訓練した。10兆トークンの事前学習基盤に2,120億トークンを追加し、SWEBench Verifiedで65%〜70.4%を記録した。あわせてNemotron 3.5 Content SafetyとNemotron 3.5 ASRを公開。ライセンスはOpenMDW-1.1へ移行した。
Perplexity、Hugging Face、build.nvidia.comなどで提供する。
【編集部解説】
まず押さえておきたいのは、今回のNemotron 3 Ultraが、単発のチャットよりも長時間稼働エージェントや複雑な推論ワークフローに最適化されたモデルだという点です。NVIDIAが照準を合わせているのは、計画を立て、ツールを呼び、何百ターンもかけて作業を進める「長時間稼働エージェント」の土台です。汎用的な推論・対話の能力も備えつつ、トークン数が数百万規模に膨らんでもマルチエージェントの作業を破綻させずに走らせ続けることを狙った設計だと、複数のメディアが揃って指摘しています。
ここで鍵になるのが「Mixture-of-Experts(MoE)」という仕組みです。総パラメータは5,500億と巨大ですが、1トークンを処理するたびに動くのは550億分だけで、その差は約10倍のスパース性にあたります。大きな脳を持ちながら、毎回その一部だけを使うことで、速度とコストを抑える。これが「速くて安い」という訴求の中身です。
技術面でもう一つ新しいのは、Mamba層とTransformer層を組み合わせたハイブリッド構造です。Mamba層が長文ワークロードで系列処理の効率を高め、少数のアテンション層が広い文脈からの正確な事実想起を担うという役割分担になっています。100万トークンという長大な文脈を扱う上で、この構造が効いてきます。
では、何ができるようになるのか。エージェントが長時間動くと、履歴や中間出力をモデルに戻し続けるため、コストと「目標のずれ」が膨らみます。Ultraは編成役の難所だけを引き受け、ルーチンな処理は軽量モデルに任せる、という分業を前提に置いています。コーディング作業の設計判断を保ち続けたり、数百の調査ソースの矛盾を統合したりする用途が想定されています。
ポジティブな側面として大きいのは「開放度」です。重みだけでなく学習データやレシピまで、Linux FoundationのOpenMDW-1.1という寛容なライセンスで公開され、商用利用も認められています。エンタープライズやソブリンAIの現場では、性能と同じくらいデータの来歴や透明性が重視されるため、ここは実利の大きい一手でしょう。
一方で、過度な期待は禁物です。NVIDIA公式は「最大5倍速い」と打ち出していますが、これは比較対象や計測条件によって幅のある自己計測値です。独立系の評価サイトの見方はもう少し冷静で、米国発のオープンモデルとしては首位に立つものの、総合的な知能指標(Artificial Analysis Intelligence Indexで約48点)では中国のKimi K2.6に6ポイントほど及ばない、という評価も出ています。速さで勝ち、総合的な賢さでは僅差で追う立場、と捉えるのが実態に近いはずです。
導入のハードルも見落とせません。5,500億パラメータをBF16で自前運用するには、B200を8基積む単一ノード、あるいはH100クラスを8基以上並べるマルチノード構成が要るとされ、現実的にはDeepInfraやOpenRouter経由のAPI利用が出発点になります。「オープン=誰でも気軽に動かせる」とまでは言えない規模感です。
規制や将来への視点にも触れておきます。今回あわせて公開された安全分類モデルNemotron 3.5 Content Safetyは、23の安全カテゴリと12言語をカバーする4Bのガードレールモデルで、エージェントの自律性が高まるほど重要性を増す領域です。AIエージェントが自らコードを実行し外部ツールを操る時代には、性能の競争と安全の作り込みが車の両輪になります。OpenShellのような隔離実行環境がセットで語られているのも、その表れだと私は見ています。
長期的に見れば、今回のリリースが示しているのは「賢さの天井」よりも「供給網の開放」です。米国発で最も速いオープンモデルが、サプライチェーンを十分に開いた形で登場したことは、長時間稼働エージェントの作り方そのものを変えうる動きだと、私は注目しています。クローズドな最前線にオープン勢が追いつきつつある流れの、明確な一里塚と言えそうです。
【用語解説】
長時間稼働エージェント(long-running agents)
計画・ツール利用・文脈保持を繰り返し、多数のターンにわたって複雑な作業を完遂するAIエージェントを指す。単発応答のチャットボットと対をなす概念である。
Mixture-of-Experts(MoE)
モデル内部に複数の「専門家(エキスパート)」を持ち、入力ごとに一部だけを起動する仕組み。総パラメータは巨大でも、推論時に動く分を絞ることで速度とコストを抑えられる。
アクティブパラメータ
1トークンの処理(フォワードパス)で実際に動くパラメータ数。Ultraは総5,500億のうち550億のみが動く設計である。
ハイブリッドMamba Transformer
状態空間モデルのMamba層と、Transformerのアテンション層を組み合わせた構造。Mamba層が長文を効率的にさばき、アテンション層が正確な事実想起を担う。
NVFP4
NVIDIAの4ビット浮動小数点形式。同一チェックポイントをHopper・Blackwell・Ampereの各GPUで動かせる量子化技術である。
LatentMoE
入力を小さな潜在次元に投影し、エキスパートのルーティング(振り分け)と計算を効率化するMoEの方式。多様な処理を1モデルでさばく。
マルチトークン予測(MTP)
1回のフォワードパスで複数の将来トークンを予測し、生成を高速化する手法。長い出力や多ターン処理で効く。
MOPD(Multi-Teacher On-Policy Distillation)
生徒モデルが自ら試行を生成しながら、10超の専門ティーチャーモデルから採点を受けて学ぶ蒸留手法。ドメインごとの能力を効率的に伸ばす。
OpenMDW-1.1
Linux Foundationが策定した、オープンAIモデル配布向けの寛容なライセンス。重み・データ・ドキュメント等を単一枠組みで包括的に扱い、商用利用を認める。
SWE-bench / Terminal-Bench 2.0
AIのソフトウェア開発・ターミナル操作能力を測るベンチマーク。エージェントの実務性能を評価する指標として用いられる。
ガードレールモデル
入力や出力が安全か、ポリシーに反していないかを判定する補助モデル。Nemotron 3.5 Content Safetyがこれにあたる。
Artificial Analysis Intelligence Index
推論・知識・数学・コーディングを横断して測る、独立系評価サイトの総合知能指標。Nemotron 3 Ultraは約48点を記録した。
【参考リンク】
NVIDIA Nemotron(公式)(外部)
Nemotronファミリー全体の概要や用途、各モデルやリソースへの導線をまとめたNVIDIA公式の紹介ページ。
build.nvidia.com(Nemotron 3 Ultra)(外部)
Nemotron 3 Ultraをブラウザ上で試せるNVIDIA開発者向けプラットフォーム。APIやNIM利用の導線も辿れる。
Hugging Face(Nemotron 3 Ultra モデルカード)(外部)
MoE構造や約20兆トークンの事前学習、BF16運用のGPU推奨構成などを記すNVIDIA公式モデルカード。
NVIDIA NeMo(GitHub)(外部)
NeMo RLやGymなど、Nemotronの学習やファインチューニングに使うオープンライブラリ群を公開するリポジトリ。
Perplexity(外部)
Nemotron 3 Ultraを提供する対話型検索サービス。ProサブスクリプションまたはAPI経由で同モデルを試せる。
Hugging Face(Nemotron 3.5 Content Safety)(外部)
23の安全カテゴリと12言語に対応する4Bガードレールモデル、Nemotron 3.5 Content Safetyの公式ページ。
Linux Foundation(OpenMDW-1.1公開)(外部)
NVIDIAがNemotron等にOpenMDW-1.1を採用したと伝える公式発表。寛容なライセンスの位置づけを確認できる。
【参考記事】
NVIDIA AI Releases Nemotron 3 Ultra: An Open 550B Mixture-of-Experts Hybrid Mamba-Transformer for Long-Running Agents(外部)
総5,500億・アクティブ550億のオープンMoEで、最大約6倍の推論スループットと20兆トークン事前学習を整理した解説記事。
NVIDIA Nemotron 3 Ultra: 550B Open Reasoning Model Live(外部)
6月4日公開の概要と約10%スパース性、米国オープン首位ながらKimi K2.6に6ポイント及ばない点を指摘する記事。
Nemotron 3 Ultra — Intelligence, Performance & Price Analysis(外部)
知能指標で約48点(実値47.7)を記録し、Kimi K2.6(約54点)に及ばないと独立計測したNemotron 3 Ultraの性能分析ページ。
NVIDIA Nemotron 3 Ultra Review: Benchmarks, Architecture & Real-World Performance (2026)(外部)
DeepInfraの料金や多GPUでの自前運用要件など、導入の現実的なハードルを具体的に示すレビュー記事。
Nemotron 3 Ultra: NVIDIA’s 550B Open-Weights Model Is the Fastest US Frontier Model — and Still Behind China(外部)
Computex 2026での発表という文脈を補い、米国オープン首位だが中国Kimi K2.6に及ばない競争視点を示す記事。
【関連記事】
NVIDIA NemoClawで産業設計が変わる─Cadence・Siemensら自律「AIエンジニア」が数週間を数時間に
本記事と同じNVIDIAのエージェント基盤を扱う最新記事。NemoClawを使った自律エージェントが実際の産業設計をどう変えるかを解説している。
OpenClawに「安全の鎧」を—NvidiaがGTC 2026でNemoClawを発表
本記事で触れたOpenShell・NemoClawの背景を深掘り。自律エージェントのセキュリティ統制という論点を理解する土台になる。
NVIDIA Cosmos 3が変えるロボット開発|推論・生成・行動を統合したオープン基盤モデル
同じくNVIDIAのオープン基盤モデル戦略を扱う一本。Nemotronと並ぶ同社のモデルファミリーの広がりがつかめる。
MiniMax M3とは?100万トークン対応の中国発オープンウェイトAI、その実力と死角
100万トークン文脈のオープンウェイトモデルという共通点を持つ。米中オープンモデル競争を比較する視点で読み合わせたい。
Microsoft Scout発表——「常時稼働」エージェントが変えるAI×仕事の新構造
長時間稼働・常時稼働エージェントというテーマで響き合う一本。Nemotron 3 Ultraが支える働き方の変化を別角度から補完する。
【編集部後記】
「速くて安い」という言葉の裏で、AIエージェントが何百ターンも自律的に動き、自らコードを実行する世界が、静かに現実味を帯びてきました。みなさんなら、長時間ひとりで働き続けるエージェントに、まず何を任せてみたいでしょうか。
そして、その自律性が高まるほど、私たちは「どこまで任せ、どこで止めるか」という線引きも考えることになりそうです。期待と不安の両方を、これからも一緒に手探りしていけたらうれしいです。












