中国最大の検索エンジン企業Baidu Inc.は2025年11月11日、新しいAIモデルERNIE-4.5-VL-28B-A3B-Thinkingをリリースした。
このモデルは総パラメータ280億のうち動作時に30億のパラメータのみを活性化するMixture-of-Experts(MoE)アーキテクチャを採用している。
BaiduはこのモデルがGoogleのGemini 2.5 ProとOpenAIのGPT-5-Highを文書理解やチャート分析などの視覚関連ベンチマークで上回ると主張している。
モデルはApache 2.0ライセンスの下でオープンソースとして公開され、AIモデルリポジトリHugging Faceでリリースされた。単一の80GB GPUで動作可能であり、画像を動的にズームインおよびズームアウトする「Thinking with Images」機能を備えている。
このモデルは2025年6月に発表されたERNIE 4.5ファミリーの一部である。Baiduは11月13日のBaidu World 2025カンファレンスでERNIEラインナップの詳細を発表する予定である。
From:
Baidu just dropped an open-source multimodal AI that it claims beats GPT-5 and Gemini
【編集部解説】
Baiduが11月11日にリリースしたERNIE-4.5-VL-28B-A3B-Thinkingは、2025年のAI業界における重要な転換点を象徴する出来事です。このモデルが注目されるのは、その性能だけでなく、中国発のオープンソースAIが世界の技術覇権に挑戦する構図を明確に示しているからです。
まず技術的な特徴を整理しましょう。このモデルはMixture-of-Experts(MoE)アーキテクチャを採用しています。MoEとは、モデル内に複数の「専門家」ネットワークを持ち、入力に応じて最適な専門家を選択的に活性化する仕組みです。ERNIE-4.5-VL-28B-A3B-Thinkingは総パラメータ280億のうち、実際の推論時には30億のパラメータのみを活性化します。この設計により、大規模モデルの性能を維持しながら計算コストを劇的に削減することに成功しました。
単一の80GB GPUで動作可能という点も重要です。これは多くの企業のデータセンターで既に利用可能なハードウェアであり、数十万ドルのマルチGPUセットアップを必要とする競合モデルと比較して、導入の敷居が大幅に下がります。価格でいえば、80GB GPUは約1万~3万ドル程度です。
「Thinking with Images(画像で考える)」機能は、人間の視覚認知プロセスを模倣した革新的なアプローチです。従来の視覚言語モデルが固定解像度で画像を処理するのに対し、このモデルは画像を動的にズームイン・ズームアウトして詳細を調べることができます。これにより、複雑な技術図面の分析から製造現場での微細な欠陥検出まで、広範な産業応用が可能になります。
しかし、このリリースを技術的な視点だけで捉えるのは不十分です。2025年は中国AI業界にとって戦略的転換の年でした。1月にDeepSeekがR1モデルをリリースし、米国の大手モデルと同等の性能を大幅に低いコストで実現できることを実証しました。この「DeepSeekショック」は業界に激震を走らせ、中国のテクノロジー企業全体がオープンソース戦略へと舵を切るきっかけとなりました。
Baiduもその例外ではありません。同社のCEOであるRobin Liは長年、クローズドソースこそがAI開発の唯一の実行可能なモデルだと主張してきました。しかし2025年2月、同社はその立場を180度転換し、ERNIE 4.5シリーズを6月30日からオープンソース化すると発表しました。これは単なる技術的決定ではなく、市場競争における生存戦略でした。
中国政府の支援を受けた企業群—Baidu、Alibaba、Tencent、Huawei—は、オープンソース戦略を通じて世界のAI開発エコシステムに深く組み込まれつつあります。AlibabaのQwenモデル、BaiduのERNIEファミリー、そしてMoonshot AIのKimi K2 Thinkingなど、競争力のあるオープンソースモデルが次々とリリースされています。
一方で、米国企業も対応を迫られています。OpenAIは2025年8月、5年ぶりにオープンソースモデルgpt-oss-120bとgpt-oss-20bをリリースしました。CEOのSam Altmanは「クローズドソースアプローチは歴史の誤った側にいた可能性がある」と認めています。これは、AIの力学が根本的に変化していることを示しています。
BaiduがGPT-5-HighやGemini 2.5 Proを上回ると主張する点については、慎重な評価が必要です。元記事でも「独立した検証はまだ保留中」と明記されています。ベンチマークのスコアは特定のタスクにおける性能を示すものであり、実世界での多様なシナリオにおける振る舞いを完全には捉えきれません。文書理解やチャート分析に優れたモデルが、創造的なタスクやリアルタイムビデオ分析では苦戦する可能性があります。
企業が導入を検討する際には、いくつかの実務的な課題も考慮すべきです。131Kトークンのコンテキストウィンドウは相当な量ですが、非常に長い技術マニュアルや広範なビデオコンテンツには制限的かもしれません。また、敵対的入力、分布外データ、エッジケースに対するモデルの動作についての詳細な情報は公開されていません。
地政学的な側面も無視できません。Baiduは中国の大手テクノロジー企業であり、Apache 2.0ライセンスの下でオープンソースとして提供されているとはいえ、米国やEUの企業が本番環境で展開する際には、サプライチェーンの透明性、国家安全保障基準、輸出管理規制などの観点から精査される可能性があります。特に防衛、医療、金融などの機密性の高いセクターで事業を行う企業や、政府機関と契約している企業にとって、この点は重要な考慮事項となるでしょう。
それでも、このリリースがAI業界に与えるインパクトは小さくありません。オープンソースの高性能モデルの普及は、AI導入の経済性を根本から変えつつあります。組織はもはや、独自システムを構築するか、少数のベンダーからクローズドソースモデルをライセンスするかという二者択一の選択に直面していません。ERNIE-4.5-VL-28B-A3B-Thinkingのような有能なオープンソースの代替品は、業界全体での採用を加速させています。
11月13日のBaidu World 2025カンファレンスでは、モデルの開発プロセス、性能検証、将来のロードマップに関する追加の詳細が発表される予定です。この発表は、BaiduがグローバルなAIインフラストラクチャ市場における主要プレーヤーとしての地位を確立しようとする野心を示しています。
歴史的な視点から見ると、私たちは技術覇権の転換期にいるのかもしれません。活版印刷が知識の民主化をもたらし、蒸気機関が産業革命を引き起こしたように、オープンソースAIの台頭は知的労働の性質そのものを変革する可能性を秘めています。その変革の主導権を誰が握るのか—この問いに対する答えは、まだ出ていません。
【用語解説】
Mixture-of-Experts(MoE) 複数の専門的なニューラルネットワーク(エキスパート)を持ち、入力に応じて最適なエキスパートを選択的に活性化するアーキテクチャ。全パラメータを常に使用するのではなく、必要な部分だけを動作させることで、計算効率を大幅に向上させる。
パラメータ AIモデルの内部設定値であり、訓練を通じて調整される。一般的にパラメータ数が多いほどモデルの能力は高いが、計算コストも増大する。ERNIE-4.5-VL-28B-A3B-Thinkingは280億の総パラメータを持つが、推論時には30億のみを活性化する。
マルチモーダルAI テキスト、画像、動画、音声など、複数の種類のデータを同時に処理・理解できるAIシステム。従来のテキスト専用モデルと比較して、より人間に近い方法で情報を扱うことができる。
Apache 2.0ライセンス オープンソースソフトウェアライセンスの一種で、商用利用を含む広範な使用が許可される。ユーザーはソフトウェアを自由に使用、修正、配布でき、ライセンス料や使用制限がない。
視覚的グラウンディング AIが画像内の特定のオブジェクトを識別し、その正確な位置を特定する能力。「この画像の中の赤い車はどこか」といった質問に対して、視覚的に答えることができる。
コンテキストウィンドウ AIモデルが一度に処理できるテキストや情報の量。131Kトークンは約300~400ページ分の小説に相当する。
強化学習(Reinforcement Learning) AIが試行錯誤を通じて学習する手法。報酬を最大化するように行動を調整していくことで、複雑なタスクを習得する。
量子化(Quantization) モデルの精度を維持しながら、計算に必要なビット数を削減する技術。メモリ使用量と推論速度を改善できる。
PaddlePaddle Baiduが開発したオープンソースの深層学習フレームワーク。TensorFlowやPyTorchと同様の役割を果たす。
【参考リンク】
Hugging Face – ERNIE-4.5-VL-28B-A3B-Thinking (外部)
Baiduが公開したERNIE-4.5-VL-28B-A3B-Thinkingモデルの公式ページ。モデルのダウンロード、技術仕様、使用方法が記載されている。
ERNIE Blog – ERNIE 4.5モデルファミリーのオープンソースリリース発表 (外部)
ERNIE 4.5ファミリーの公式ブログ。モデルの技術的詳細、ベンチマーク結果、訓練方法について包括的な情報を提供している。
GitHub – PaddlePaddle/ERNIE (外部)
ERNIE 4.5とERNIEKitの公式リポジトリ。PaddlePaddleベースの産業グレード開発ツールキットを提供する。
Apache Software Foundation – Apache License 2.0 (外部) ERNIE-4.5-VL-28B-A3B-Thinkingが採用しているライセンスの詳細。商用利用の条件や権利について説明されている。
【参考記事】
Announcing the Open Source Release of the ERNIE 4.5 Model Family | ERNIE Blog (外部)
ERNIE 4.5ファミリーの技術的詳細とベンチマーク結果を公式に発表。MoEアーキテクチャの設計思想や、DeepSeek-V3やQwen3-30Bとの性能比較が記載されている。Apache 2.0ライセンスでの商用利用が可能であることも明記されている。
China’s open-source embrace upends conventional wisdom around artificial intelligence | CNBC (外部)
中国のAI業界がオープンソース戦略にシフトしている背景を分析。DeepSeekの登場が業界に与えた影響と、Baidu、Alibaba、Tencentなどの大手企業がオープンソース化を進める理由を解説している。
China’s biggest public AI drop since DeepSeek, Baidu’s open source Ernie, is about to hit the market | CNBC (外部)
BaiduのERNIE 4.5オープンソース化の意義と市場への影響を報道。Robin Li CEOの戦略転換と、DeepSeek以降の中国AI市場の動向を詳述している。
OpenAI’s open-source pivot shows how U.S. tech is trying to catch up to China’s AI surge | Fortune Asia (外部)
OpenAIがオープンソース戦略に転換した背景を分析。中国企業のオープンソース攻勢に対する米国企業の対応と、Sam Altmanのクローズドソースアプローチへの反省を報じている。
GPT-5 vs Gemini 2.5 Pro: The Ultimate AI Showdown of 2025 | Arsturn (外部)
GPT-5とGemini 2.5 Proの性能比較。ベンチマーク結果、推論能力、コーディング性能、マルチモーダル機能について詳細に比較分析している。
Benchmark of 30 Finance LLMs: GPT-5, Gemini 2.5 Pro & more | AIMultiple (外部)
30種類のLLMを金融分野のベンチマークで比較。GPT-5が最高の精度を記録し、Gemini 2.5 Proやgrok-3がそれに続く結果となっている。
Baidu’s ERNIE 4.5 Release Sparks Global AI Shake-Up | The AI Track (外部)
ERNIE 4.5ファミリーのリリースが世界のAI市場に与えた影響を分析。47%のModel FLOPs Utilization達成や、異種MoEアーキテクチャの技術的優位性について詳述している。
【編集部後記】
オープンソースAIの波が、私たちの想像以上の速さで世界を変えつつあります。BaiduのERNIE 4.5が示すのは、高性能なAIがもはや一部の巨大企業だけのものではなくなったという現実です。
皆さんの会社や組織では、AIモデルを選ぶ際に何を重視されますか?性能でしょうか、コストでしょうか、それともデータの主権やセキュリティでしょうか。
Apache 2.0ライセンスの下で自由に使えるモデルと、有料の最先端モデル、どちらを選ぶかは単なる技術的判断ではなく、ビジネス戦略そのものになりつつあります。
AIの民主化は理想的に聞こえますが、同時に地政学的な複雑さも孕んでいます。この変化の渦中で、私たち自身がどのような選択をしていくのか一緒に考えていきたいですね。

























