Cohere、エージェントAI「Command A+」をオープンソース化｜富士通と連携、ソブリンAIの本命に

「AIを自社のサーバーで動かす」という選択肢が、いま現実味を帯びてきました。カナダのAI企業Cohereが2026年5月20日に公開した「Command A+」は、総パラメータ2180億の巨大モデルでありながら、NVIDIA B200を1基という驚異的に少ないハードウェアで稼働します。Apache 2.0ライセンスで開放され、48言語に対応。富士通との連携も継続するこのモデルは、米中の巨大AI企業に依存しない「ソブリンAI（主権AI）」の本命として注目されています。

Cohereおよび Cohere Labs は、オープンソースのマルチモーダル大規模言語モデル「Command A+（command-a-plus-05-2026）」をHugging Face上で公開した。

本モデルは250億のアクティブパラメータと2180億の総パラメータを持つデコーダーのみのスパースMixture-of-Experts型Transformerであり、128個のエキスパートのうちトークンごとに8個がアクティブとなる構成を採る。コンテキスト長は入力128K、出力64Kをサポートし、テキストと画像の入力に対応する。日本語を含む48言語で訓練されており、エージェント型・推論タスク向けに最適化されている。ライセンスはApache 2.0。量子化バージョンはBF16、FP8、W4A4の3種が提供され、W4A4はNVIDIA B200を1基、またはH100を2基で動作する。W4A4ではNVFP4量子化をMoEエキスパートにのみ適用し、アテンション経路はフル精度を維持。ポストトレーニング段階で量子化を意識した蒸留（QAD）を採用している。Transformers、vLLM、SGLang、Docker Model Runnerに対応する。

From: CohereLabs/command-a-plus-05-2026-w4a4 · Hugging Face

【編集部解説】

今回 Cohere および Cohere Labs がHugging Faceで公開した「Command A+（command-a-plus-05-2026）」は、2026年5月20日にトロントで正式発表されたばかりの、エンタープライズ向けオープンソース大規模言語モデルです。innovaTopiaがこのモデルに注目する理由は、単に「新しいオープンソースLLMが出た」という以上の意味を持つからです。

まず特筆すべきは、Apache 2.0ライセンスでの公開という点です。同社CEOであるエイダン・ゴメス氏は、2017年の論文「Attention Is All You Need」でTransformerアーキテクチャを共著した8名のうちの一人ですが、その彼が率いる企業が、最も制約の少ない商用利用可能ライセンスで、エンタープライズ用途における第一線級のMoEモデルを開放した意義は非常に大きいといえます。

技術的なハイライトは、NVFP4 W4A4量子化と呼ばれる新世代の4ビット量子化技術の採用です。これはNVIDIAのBlackwell世代GPU（B200）に搭載されたFP4テンソルコアを活用するもので、従来のINT4量子化と異なり浮動小数点形式を維持するため、品質劣化を最小限に抑えながら大幅な高速化を実現します。

具体的には、W4A4版はB200を1基、あるいはH100を2基で稼働します。総パラメータ2180億という規模のモデルが、これだけ少ないハードウェアで動作することは、数年前には想像できなかった水準です。同社の公式ブログによれば、W4A4化により速度はさらに47%向上し、レイテンシは13%低減したとされています。

なぜ今、このようなハードウェア効率が重要なのでしょうか。それは「ソブリンAI（主権AI）」という潮流と密接に関わっています。Cohereは2026年4月24日、ドイツのAleph Alphaとの合併を発表しました。合併後の評価額は約200億ドル（約3兆円、1ドル＝150円換算）で、ドイツの小売大手シュヴァルツ・グループから6億ドル（約900億円）の出資を受ける予定です。この一連の動きは、米中の巨大AI企業に依存しない「第三極」を構築する戦略の一環です。

そして日本の読者にとって特に注目すべきは、富士通とのパートナーシップです。富士通とCohereは2024年7月から戦略的提携を結んでおり、Cohereの旧モデルを基盤とした日本語特化型LLM「Takane」を共同開発、Fujitsu Kozuchiを通じて提供してきました。今回のCohere公式ブログには、富士通のシステムプラットフォーム担当CTOであるビベック・マハジャン氏のコメントが掲載されており、Command A+のMoEアーキテクチャとエージェント性能を、Takane および Kozuchi Enterprise AI Factory を通じたソブリンAIソリューション提供に活用していく意向が示されています。Command A+は、日本のエンタープライズAI市場における次世代基盤としても重要な意味を持つことになりそうです。

性能面では、Artificial Analysisの独立評価において Intelligence Indexで37点を記録し、Claude 4.5 Haikuと同水準、NVIDIA Nemotron 3 SuperやGemini 3.1 Flash-Liteを上回るスコアを獲得しました。特にハルシネーション抑制を測る AA-Omniscience Non-Hallucinationでは86%で首位に立っており、「知らないことは知らないと言える」モデル設計が評価されています。

エージェント性能も大幅に向上しています。前世代のCommand A Reasoningと比較して、エージェント型コーディングのベンチマーク Terminal-Bench Hard では3%から25%へ、通信業務のエージェントタスクを測る 𝜏²-Bench Telecom では37%から85%へと飛躍的に改善されました。これは、APIやデータベースを呼び出して自律的に作業を進める「AIエージェント」の実用化が、いよいよ業務レベルに到達しつつあることを示唆します。

さらに、日本語ユーザーにとって嬉しいのは、新トークナイザーによる効率改善です。同じ応答を生成する際に必要なトークン数が、日本語で18%、韓国語で16%、アラビア語で20%削減されました。これは推論コストの直接的な削減につながり、非英語圏での実用展開を後押しします。

一方で、潜在的なリスクや限界にも触れておくべきでしょう。第三者ベンチマークによれば、Command A+ は最難関の科学的推論（HLE 約11%、GPQA Diamond 約76%）や、最先端のエージェント型コーディング領域では、ピアモデルにやや遅れを取っています。最先端の汎用性能を求める用途では、依然として他のフロンティアモデルとの使い分けが必要です。

規制への影響という観点では、本モデルがオープンソースで完全にプライベート展開可能である点が、EU AI Actや日本のAI事業者ガイドラインへの対応を容易にします。データを外部のAPIに送ることなく、自社の閉じた環境内で推論を完結できるため、医療・金融・公共部門での採用障壁が大きく下がります。

長期的な視点で見ると、今回のリリースは「AIインフラの民主化」と「地政学的分散化」という、相反するように見える二つの潮流が結びついた象徴的な出来事です。第一線級のオープンソースモデルが、限られた巨大企業のクラウドだけでなく、組織が自ら所有するGPU上で動く時代——その入り口に、私たちは立っているのかもしれません。

【用語解説】

Mixture-of-Experts（MoE / 専門家混合モデル）
ニューラルネットワークを「エキスパート」と呼ばれる複数の小さなサブネットワークに分割し、入力ごとに必要なものだけを選択的に動作させるアーキテクチャだ。Command A+ は128個のエキスパートのうち8個のみがトークンごとに稼働するため、総パラメータ2180億に対し実際の計算量は250億分にとどまる。

スパース／密（Dense）モデル
密モデルが入力ごとに全パラメータを使うのに対し、スパースモデルは一部のみを使用する。MoEはスパース化の代表例である。

アクティブパラメータ／総パラメータ
総パラメータはモデルが保持する全重みの数、アクティブパラメータは1トークンの生成時に実際に計算に使われる重みの数を指す。MoEモデルでは両者が大きく異なる。

量子化（Quantization）
モデルの重みを32ビットや16ビットから、より少ないビット数で表現する技術。メモリ使用量と計算量を削減できる一方、誤差が品質に影響する場合がある。

NVFP4 W4A4
NVIDIAが開発した4ビット浮動小数点形式。W4A4は「重み（Weight）4ビット、活性化（Activation）4ビット」を意味する。Blackwell世代GPU（B200など）のテンソルコアでネイティブにサポートされ、従来のINT4と異なり浮動小数点の表現力を保つため、精度劣化が小さい。

Quantization-Aware Distillation（QAD / 量子化を意識した蒸留）
ポストトレーニング段階で、量子化されたモデル（生徒）が、フル精度のモデル（教師）の出力分布を再現するように訓練する手法だ。順伝播では擬似的な量子化を行いつつ、逆伝播ではその量子化を通過させる「ストレートスルー推定器」を用いる。

コンテキスト長
モデルが一度に処理できる入力テキストの長さ。128Kは約9万〜10万語に相当する。

エージェント型タスク（Agentic Task）
モデルが単に応答を返すだけでなく、外部のAPI、データベース、検索エンジン、コードインタープリターなどを自律的に呼び出して目的を達成する一連の処理を指す。

スライディングウィンドウ・アテンション
注意機構の計算範囲を直近のトークンに限定することで、長文処理時の計算量を抑える手法だ。Command A+ では位置埋め込みを伴うスライディングウィンドウ層と、位置埋め込みのないグローバル・アテンション層を3対1の比率で交互配置している。

ハルシネーション
言語モデルが、事実に反する情報をもっともらしく生成してしまう現象。AA-Omniscience Non-Hallucinationはこれを抑制できているかを測るベンチマークである。

ソブリンAI（Sovereign AI / 主権AI）
データ、モデル、インフラを自国・自組織の管理下に置き、外部国家や特定ベンダーへの依存を避けるAI運用の考え方を指す。EU AI Actや各国の規制強化を背景に、近年急速に重要性が高まっている。

Apache 2.0ライセンス
オープンソースソフトウェアの代表的なライセンスのひとつ。商用利用、改変、再配布、特許利用が認められており、最も自由度の高いライセンスのひとつとして知られる。

【参考リンク】

Cohere 公式サイト（外部）
カナダ・トロントに本拠を置くエンタープライズ向けAI企業。2019年創業、エイダン・ゴメス氏らが共同設立。

Command A+ 公式紹介ページ（Cohereブログ）（外部）
Command A+のリリースを告知するCohere公式ブログ。アーキテクチャやベンチマークの詳細を解説。

CohereLabs/command-a-plus-05-2026-w4a4（Hugging Face）（外部）
Command A+ のW4A4量子化版モデル配布ページ。本記事の一次情報源にあたるモデルカード。

Hugging Face 公式サイト（外部）
機械学習モデルとデータセットの共有プラットフォーム。世界中の開発者・研究者が利用するハブ。

NVIDIA Blackwell アーキテクチャ紹介ページ（外部）
NVIDIA最新データセンター向けGPUアーキテクチャ。FP4テンソルコアでNVFP4量子化をネイティブ実行。

vLLM プロジェクト（外部）
カリフォルニア大学バークレー校発の高速LLM推論・サービングエンジン。Command A+ の推奨実行環境。

SGLang プロジェクト（外部）
構造化生成に強みを持つ高速LLM推論フレームワーク。Command A+ の対応フレームワーク。

Artificial Analysis（外部）
LLMの性能・速度・コストを独立評価するベンチマーク機関。Intelligence Indexなどを提供。

Fujitsu Kozuchi（Cohere顧客事例ページ）（外部）
富士通とCohereの協業による日本語LLM「Takane」の開発事例を紹介するCohere公式ページ。

Fujitsu and Cohere strategic partnership（富士通公式プレスリリース）（外部）
富士通とCohereの戦略的パートナーシップ締結とTakane共同開発の公式発表（2024年7月16日付）。

Aleph Alpha 公式サイト（外部）
ドイツ・ハイデルベルクに本拠を置くAI企業。2026年4月、Cohereとの合併を発表した。

【参考記事】

Introducing Command A+: Making sovereign agentic capabilities available to all（Cohere公式ブログ）（外部）
2026年5月20日付公式リリース。パラメータ数、ベンチマーク、量子化戦略、日本語トークン効率18%改善などを記載。

Cohere Releases Command A+: An Open-Source Enterprise AI Model Built for Sovereign Critical Infrastructure（Business Wire）（外部）
Cohereの累計調達額約16億ドル、主要投資家リスト（Nvidia、AMD Ventures、ヒントン氏ら）を記載。

Cohere launches open weights model Command A+, more than a year since the Command A release（Artificial Analysis）（外部）
独立評価。Intelligence Index 37点、AA-Omniscience 86%（1位）、推論速度281トークン/秒などを提示。

Cohere cracks lossless quantization and native citations with first full Apache 2.0 licensed open model Command A+（VentureBeat）（外部）
2180億パラメータの位置づけ、ネイティブ引用生成、ハードウェア効率戦略を解説する分析記事。

Why Cohere is merging with Aleph Alpha（TechCrunch）（外部）
合併後評価額200億ドル、Cohereの2025年評価額68億ドル、年間経常収益2億4000万ドルを報じる。

Cohere valued at around $20B in Aleph Alpha deal（Axios）（外部）
合併後評価額200億ドル、Schwarz Group6億ドル出資、欧州デジタル主権戦略を一次速報的に伝える。

Fujitsu launches Takane AI model, powered by Cohere（Cohere顧客事例）（外部）
富士通におけるTakaneの本格運用、Fujitsu KozuchiおよびFujitsu Data Intelligence PaaSへの統合状況を解説。

【関連記事】

Cohere「Command A Vision｜GPU2基で動作する企業向けAI発表（2025年8月3日公開）
Cohereが2025年7月に発表した前世代ビジョンモデル「Command A Vision」を扱った記事。本記事のCommand A+はその後継・統合モデルとして位置づけられ、進化の系譜を理解する上で必読。

Cohere「Command A Vision」｜GPU2基で動作する企業向けAI発表

カナダのAI企業Cohere（本社トロント）は2025年7月31日、企業向けビジョンモデル「Command A カナダのAI企業Cohereが企業向けマルチモーダルモデル「C…

innovaTopia -（イノベトピア） – …

Cohere Command R+ GPT-4やClaude3も凌駕するLLMについてまとめてみた（2024年4月22日公開）
Cohereの主力モデル「Command R+」の登場を解説した記事。会社の設立経緯やエイダン・ゴメスCEOの背景も詳述しており、Cohereという企業を深く理解できる。

Cohere Command R+ GPT-4やClaude3も凌駕するLLMについてまとめてみた

Cohere社のCommand R+は、効率性と精度に優れた企業向けの大規模言語モデル。多言語対応、長文脈処理、ツール連携などの機能を備え、OpenAIやAnthropi…

innovaTopia -（イノベトピア） – …

カナダのCohereと富士通、日本語AIモデル開発で手を組む（2024年7月17日公開）
富士通とCohereが「Takane」共同開発に向けた戦略的パートナーシップを締結したことを伝える記事。今回のCommand A+発表に富士通CTOがコメントを寄せた背景がここにある。

カナダのCohereと富士通、日本語AIモデル開発で手を組む

カナダのAIスタートアップCohereと日本の富士通が提携し、日本語の大規模言語モデル(LLM)「Takane」の開発に着手。この戦略的パートナーシップは、企…

innovaTopia -（イノベトピア） – …

富士通のLLM「Takane」、行政のパブコメ業務を10分で処理し8割超の精度達成（2026年2月3日公開）
Cohere基盤のTakaneが日本の中央省庁業務で実証された事例。Command A+が次世代基盤となった場合、日本の行政DXがさらに加速する可能性を示唆。

富士通のLLM「Takane」、行政のパブコメ業務を10分で処理し8割超の精度達成

富士通株式会社が大規模言語モデル「Takane」を用いたパブリックコメント業務効率化の実証実験を特定の中央省庁と協働で実施。約12万文字のデータを10…

innovaTopia -（イノベトピア） – …

Aleph Alpha、EU規制準拠のオープンソースAIモデルを公開 – 透明性と信頼性の新時代へ（2024年8月27日公開）
2026年4月にCohereが合併発表したドイツのAI企業Aleph Alphaを扱った記事。EU規制準拠とソブリンAI戦略の文脈を理解するのに有用。

Aleph Alpha、EU規制準拠のオープンソースAIモデルを公開 – 透明性と信頼性の新時代へ

ドイツのAIスタートアップAleph Alphaが、EU規制に準拠した透明性の高いAIモデルを発表。オープンソース化により、AIの民主化と倫理的開発を促進。業…

innovaTopia -（イノベトピア） – …

NTT版LLM「tsuzumi 2 Vision」登場 ― 図表入り日本語ビジネス文書を1GPUで読み解く純国産AI（2026年5月20日公開）
偶然にもCommand A+と同日発表となったNTTの日本語特化LLM。「1GPUで動く」「日本語ビジネス文書」という共通テーマを持ち、対比して読むことで日本のソブリンAI戦略の全体像が見える。

NTT版LLM「tsuzumi 2 Vision」登場 ― 図表入り日本語ビジネス文書を1GPUで読み解く純国産AI

NTTは2026年5月19日、軽量LLM「tsuzumi 2」のビジョン対応モデル「tsuzumi 2 Vision」を発表しました。図表・グラフ・チャートを含む日本語ビジネス文…

innovaTopia -（イノベトピア） – …

Sakana AI×NVIDIA、新フォーマット「TwELL」でLLM推論を最大30%高速化 H100でメモリ24%超削減（2026年5月10日公開）
LLMの推論高速化・メモリ削減という量子化と同じ問題意識を扱った記事。Command A+のNVFP4 W4A4と並べて読むと、効率化技術の最前線が立体的に理解できる。

Sakana AI×NVIDIA、新フォーマット「TwELL」でLLM推論を最大30%高速化 H100でメモリ24%超削減

日本のSakana AIとNVIDIAが共同で、LLMの推論と学習を20%以上高速化する新スパースデータ・フォーマット「TwELL」と専用CUDAカーネルを発表。1.5Bモデ…

innovaTopia -（イノベトピア） – …

【編集部後記】

みなさんは普段、AIをどんな環境で使っていますか。クラウド経由のチャットサービスが当たり前になった今、「自社のサーバーで動くAI」という選択肢はやや遠い世界の話に感じられるかもしれません。けれど Command A+ のような第一線級のオープンソースモデルが登場したことで、その距離は確実に縮まりつつあります。

日本語の処理効率が改善されたことや、富士通との協業が継続していることを考えると、私たちのすぐ近くにもこの変化の波が及んでくる予感がします。「どこに置くか」「誰が管理するか」という問いを、これを機に少しだけ意識してみると、AIとの付き合い方に新しい視点が生まれるかもしれませんね。