中国のAI開発企業DeepSeekが次世代モデルR2の開発において、中国政府当局からの圧力によりHuaweiの国産シリコンでのトレーニングを求められた。
DeepSeekは数か月間、Huaweiエンジニアのチーム全体の支援を受けてHuaweiのAscend 910Cチップを使用したが、不安定なチップ、遅い相互接続、未熟なソフトウェアにより単一の成功したトレーニング実行も完了できなかった。
この失敗とデータラベリングの課題により、DeepSeek R2のリリースが遅延し、同社は最終的にNvidiaのH20 GPUを使用して一からやり直すこととなった。
HuaweiのAscendアクセラレーターは推論業務に格下げされた。Ascend 910CはNvidiaのH20よりも多くのvRAMと2倍以上のBF16浮動小数点性能を提供するが、メモリ帯域幅では若干劣る。
DeepSeekは従来Nvidiaハードウェア向けにトレーニングスタックを最適化しており、V3モデルの多くをFP8でトレーニングしていたが、HuaweiのAscendアクセラレーターはFP8をサポートしておらず、16ビットデータタイプに依存する必要があった。
From: Dodgy Huawei chips nearly sunk DeepSeek’s next-gen R2 model
【編集部解説】
今回DeepSeekが直面した問題は、単なるスペック上の差異を超えて、AIトレーニングの根本的な技術的要件に関わるものでした。Ascend 910CはNvidia H20と比較して、理論上は優れた性能を持っているとされています。具体的には、より多くのvRAMと2倍以上のBF16浮動小数点性能を提供する一方で、メモリ帯域幅では若干劣るとされています。
しかし、大規模AIモデルのトレーニングは数万個のチップによる協調動作を必要とし、単一のコンポーネントが故障すると最後のチェックポイントから再開しなければならない極めてデリケートな作業です。この環境において、「不安定なチップ、氷河のように遅い相互接続、未熟なソフトウェア」という3つの致命的な問題が組み合わさったことで、DeepSeekは一度も成功したトレーニング実行を完了できませんでした。
ソフトウェアエコシステムの重要性
見落とされがちですが、この事案はハードウェア性能以上にソフトウェアエコシステムの成熟度が重要であることを示しています。DeepSeekはNvidia向けにトレーニングスタックを最適化しており、V3モデルの多くをFP8で訓練していました。しかし、HuaweiのAscendアクセラレーターはFP8をサポートしておらず、より多くのメモリを消費する16ビットデータタイプに依存する必要がありました。
このような根本的な仕様の違いは、単純なハードウェア交換では解決できない深刻な技術的負債を生み出します。Huaweiのエンジニアチーム全体がDeepSeekのオフィスに派遣されたにもかかわらず問題を解決できなかったという事実は、技術的課題の深刻さを物語っています。
中国の戦略的ジレンマ
この事案は中国政府が直面する戦略的ジレンマを象徴的に表しています。一方では技術自立を推進し、中国企業にNvidia H20の使用を控えるよう要請している。他方では、国産技術が実用レベルに達していないため、結果的に中国のAI開発能力を制約してしまうリスクがあります。
特に興味深いのは、DeepSeekが最終的にNvidia H20での訓練に戻る一方で、推論にはHuaweiのAscendを使用するという妥協案を採用した点です。これは技術的制約と政治的要求の間でバランスを取る現実的な解決策ですが、同時に中国の技術的依存状況の複雑さを示しています。
業界への長期的影響
今回の技術的挫折は、中国のAI産業における重要な転換点となる可能性があります。Huaweiは明らかに推論に特化したアプローチにシフトしており、CloudMatrixラックシステムによる大規模クラスターの展開を簡素化することを目指しています。これは新参者が技術を成熟させる間、影響範囲を最小限に抑える現実的な戦略といえるでしょう。
長期的視点での影響
この事案は、技術覇権をめぐる米中競争の現在地を正確に映し出しています。中国が真の技術自立を達成するためには、ハードウェア性能の向上だけでなく、ソフトウェアエコシステム全体の成熟が不可欠であることが明らかになりました。
Huawei創業者の任正非氏が「米国はHuaweiの成果を誇張している。Huaweiはまだそれほど優秀ではない」と認めているように、中国の技術企業自身も現実的な技術評価を行っています。単一チップ性能では1世代遅れているものの、クラスターベースのコンピューティングで補うという戦略は現実的ですが、今回の事案はその限界も露呈しました。
今後、中国のAI産業がこの技術的ギャップをどのように克服していくかは、グローバルなAI開発競争の行方を左右する重要な要素となるでしょう。
【用語解説】
LLM
Large Language Modelの略称で、大量のテキストデータを用いて訓練された自然言語処理モデルのこと。文章の生成や理解に用いられる。
FP8
8ビットの浮動小数点形式で、AIモデルのトレーニングや推論における計算効率を高めるために使われる。HuaweiのAscendアクセラレーターは未対応。
BF16
Brain Floating Point 16-bitの略。16ビットの浮動小数点形式で、AIモデルのトレーニングに広く用いられている。Ascend 910CはBF16性能が優れている。
推論(Inference)
訓練済みモデルを用いて実際の入力データに対して予測や解析を行うプロセス。トレーニングに比べて計算負荷は低い。
強化学習(Reinforcement Learning)
AIが報酬を基に自身の行動を調整し、最適な行動戦略を学習する手法。言語モデルの高度な推論能力の習得に用いられることがある。
【参考リンク】
Huawei Ascend 910プロセッサー(外部)
Huaweiが開発したAscend 910の性能と技術的特徴を紹介している
DeepSeek公式サイト(外部)
中国のAI企業DeepSeekの公式サイト。無料でモデルにアクセス可能
NVIDIA H200 Tensor Core GPU(外部)
NVIDIAの次世代データセンター向けGPU H200の公式ページ
Huawei CloudMatrix(外部)
大規模AIトレーニングクラスターに対応したCloudMatrix紹介記事
【参考動画】
【参考記事】
Huawei readies new AI chip for mass shipment(外部)
HuaweiのAscend 910C大量出荷計画とNvidia代替品としての位置づけ
Huawei to begin mass shipments of Ascend 910C(外部)
米国制裁下でのHuawei Ascend 910C出荷開始に関する分析記事
Nvidia to resume selling H20 chips to China(外部)
NvidiaのH20チップ中国向け販売再開計画についての詳細報告
Huawei launches CloudMatrix 384 AI chip cluster(外部)
CloudMatrix 384の技術仕様とNvidia GB200との性能比較分析
【編集部後記】
今回のDeepSeekの事例は、技術の理論値と実用性の間に潜む複雑な現実を浮き彫りにしました。私たち編集部も、スペック表だけでは見えない技術の真の実力について改めて考えさせられています。
皆さんは、AIモデルの開発において「ハードウェア性能」と「ソフトウェアエコシステム」のどちらがより重要だと思われますか?また、中国の技術自立戦略が今後どのような展開を見せるか、ご自身の業界や関心分野への影響も含めてお聞かせください。
技術覇権をめぐる競争の最前線で起きているこうした出来事は、私たちの未来にどのような変化をもたらすのでしょうか。ぜひSNSで皆さんのご意見やお考えをお聞かせください。