Baiduは2026年1月22日、自社開発の人工知能チャットボットErnie Bot(文心一言)5.0をリリースした。最新モデルは2.4兆のパラメータを持ち、ネイティブなフルモダリティ統合モデリング技術を採用している。テキスト、画像、音声、動画の入力と出力をサポートし、個人ユーザーは公式アプリとウェブサイトから、企業や開発者はQianfanプラットフォームから利用できる。
Baidu副社長でありウー・ティエンによると、文心5.0は統一された自己回帰アーキテクチャを利用し、活性化パラメータ比率は3%未満を達成している。モデルはマルチモーダル理解、コーディング、創造的執筆で画期的な成果を達成し、古典小説『紅楼夢』の言語スタイルをシミュレートできる。
開発には、テクノロジー、金融、文化、教育、医療、エネルギーなどの業界と、数学、物理学、化学、生物学、文学、歴史、哲学などの学問分野から835人の専門家が参加した。
From:
Baidu releases latest version of its Ernie chatbot
【編集部解説】
今回の発表は、実は2段階のリリース戦略の完成形です。Baiduは2025年11月にERNIE 5.0のプレビュー版を公開し、2026年1月22日に正式版(full version)をリリースしました。この間、プレビュー版は2026年1月にLMArenaで中国1位を獲得しており、実戦での性能検証を経た上での正式リリースとなっています。
技術的に注目すべきは「ネイティブフルモダリティ」というアプローチです。従来の多くのマルチモーダルAIは「後期融合(Late Fusion)」と呼ばれる手法を採用しており、テキスト、画像、音声をそれぞれ別々のモデルで処理した後、最終段階で結果を統合します。一方、ERNIE 5.0は最初から統一されたアーキテクチャ内で全てのモダリティを同時に学習させることで、モダリティ間の相互作用をより深く理解できるのです。
2.4兆というパラメータ数は圧倒的に見えますが、実際の推論時には3%未満しか活性化しません。これはMixture of Experts(MoE)と呼ばれるアーキテクチャの恩恵で、タスクに応じて必要な「専門家」だけを呼び出す仕組みです。結果として、巨大なモデルサイズを保ちながらも計算コストと推論速度を最適化できています。
開発に835人の専門家を動員した点も見逃せません。これは単なる技術開発ではなく、文化、倫理、専門知識の正確性まで含めた総合的な品質管理の表れです。特に『紅楼夢』の文体を再現できるという事例は、中国文化の深い理解を示しており、グローバルモデルとの差別化要因となっています。
潜在的な課題としては、中国国内向けに最適化されたモデルが国際市場でどこまで受け入れられるかという点があります。また、2.4兆パラメータという規模は、運用インフラやエネルギー消費の観点からも持続可能性の検討が必要でしょう。
この発表は、AI開発の主導権が米国だけにあるわけではないことを改めて示しました。中国独自の技術アプローチと文化的な深みを持つモデルの登場は、グローバルなAI競争に新たな次元をもたらしています。
【用語解説】
パラメータ
AIモデルが学習によって獲得する内部的な重み付けの数値である。パラメータ数が多いほどモデルは複雑なパターンを学習できるが、計算コストやメモリ消費も増大する。2.4兆パラメータという規模は現在のAIモデルの中でも最大級に位置する。
マルチモーダルAI/フルモダリティ
テキスト、画像、音声、動画など複数の異なる情報形式(モダリティ)を統合的に処理できるAIシステムのことである。ERNIE 5.0の「フルモダリティ」は、これらすべてのモダリティを最初から統一されたアーキテクチャで扱う点が特徴だ。
後期融合(Late Fusion)
マルチモーダルAIの従来手法で、各モダリティ(テキスト、画像、音声など)をそれぞれ別々のモデルで処理した後、最終段階で結果を統合する方式である。シンプルだが、モダリティ間の深い相互作用を捉えにくいという課題がある。
Mixture of Experts(MoE)
大規模AIモデルのアーキテクチャの一つで、複数の「専門家」モジュールを用意し、タスクに応じて必要な専門家だけを選択的に活性化させる手法である。これにより巨大なモデルサイズを保ちながらも推論時の計算コストを削減できる。
自己回帰アーキテクチャ
前の出力を次の入力として使用し、順次データを生成していくモデル構造である。GPTなどの言語モデルで広く採用されており、文脈を考慮した自然な文章生成が可能になる。
LMArena(Chatbot Arena)
UC BerkeleyのLMSYSプロジェクトが運営する、大規模言語モデルの性能を実際のユーザー評価で比較するオープンなベンチマークプラットフォームである。匿名の2つのモデルを比較し、ユーザーがどちらが優れているかを投票する形式で評価が行われる。
【参考リンク】
Baidu(百度)(外部)
中国最大の検索エンジンを提供するテクノロジー企業。AI技術、自動運転、クラウドサービスなど幅広く展開
Ernie Bot(文心一言)(外部)
Baidu開発のAIチャットボット公式サイト。テキスト・画像・動画生成やコーディング支援を提供
Baidu Qianfan(千帆大模型平台)(外部)
企業・開発者向け大規模言語モデルプラットフォーム。ERNIEシリーズをAPI提供
LMArena(Chatbot Arena)(外部)
UC BerkeleyのLMSYS運営。AIモデルの性能を実際のユーザー評価で比較するベンチマーク
【参考記事】
Baidu Launches the New Native Multimodal Large Model ERNIE 5.0(外部)
2025年11月のプレビュー版発表時の詳細レポート。2.4兆パラメータと活性化率3%未満などの数値データを提示
Citi: Baidu demonstrates full-stack technological capabilities(外部)
シティによる分析レポート。2026年1月22日の正式リリースでQianfanとの統合によるAIクラウド事業拡大を指摘
Applying Mixture of Experts in LLM Architectures(外部)
NVIDIAによるMoEアーキテクチャの技術解説。活性化パラメータ削減と推論速度最適化を詳述
Approaches to Multimodal Fusion: Early, Intermediate, Late(外部)
マルチモーダルAIの3つの融合手法を比較解説。ERNIE 5.0のネイティブアプローチの技術的優位性を理解できる
ERNIE-5.0-Preview-1220 Becomes the Sole Chinese Model in Top 10 on LMArena(外部)
Baidu公式ブログ。2026年1月にLMArenaで中国モデルとして唯一トップ10入りしたことを報告
【編集部後記】
AIの技術革新は今、予想以上のスピードで進んでいます。アメリカだけでなく、中国も独自のアプローチで大きな一歩を踏み出しました。皆さんは日常的にどのAIツールを使っていますか?そしてそのAIがどこの国で開発されたものか、意識したことはあるでしょうか。
技術の背景にある文化や価値観の違いが、AIの「個性」を生み出しているのかもしれません。私たちもこれからさまざまなAIに触れながら、その違いを感じ取っていきたいと思います。皆さんの体験や気づきもぜひ共有していただけたら嬉しいです。



































