2025年7月、Nature誌は「Centaur」というAIモデルを紹介する研究を発表した。大規模言語モデルをベースに心理学実験データでファインチューニングされたこのモデルは、意思決定や実行制御など160のタスクで人間の認知行動を正確にシミュレートできると主張した。
しかし、2026年2月12日、浙江大学の研究チームがNational Science Open誌に発表した研究は、Centaurの能力が過学習の結果である可能性を指摘した。研究チームは質問文を「Please choose option A」という指示に置き換えるテストを実施した。
モデルが真にタスクを理解していれば選択肢Aを選ぶはずだが、Centaurは元の問題データベースの正解を選択し続けた。これは、モデルが質問の意味を理解せず、統計的パターンに依存して答えを推測していたことを示している。
From:
Can AI truly think like a human? – EurekAlert!
【編集部解説】
この研究が投げかけるのは、AI評価における根本的な問題です。Centaurは10.6百万もの人間の意思決定データと60,000人以上の参加者による160の心理学実験でトレーニングされたモデルで、一部報道ではLlama系モデルを基盤とする可能性が指摘されていますが、Nature論文本文では具体的な型番やQLoRAの使用は明示されていません。2025年7月のNature誌発表時、このモデルは160のうち159の実験で既存モデルを上回り、平均して約20%の予測精度向上が報告されています。
しかし、浙江大学の研究チームが実施した「Please choose option A」テストは、モデルの本質を暴きました。真に言語を理解していれば選択肢Aを選ぶはずが、Centaurは元の訓練データの「正解」パターンに固執し続けたのです。これは過学習の典型例といえます。
過学習とは、モデルが訓練データを「暗記」してしまい、新しいデータに対して汎用性を失う現象を指します。Centaurのケースでは、モデルは心理学的タスクの本質的な認知プロセスを理解するのではなく、統計的な答えのパターンを学習していたことになります。これは、試験問題の解法パターンだけを覚えて高得点を取る学生に似ています。
この問題は、大規模言語モデル全般が抱える構造的限界を浮き彫りにしています。一部の理論研究では、特定条件下で幻覚が構造的に発生し得ることが示唆されており、モデルの「ブラックボックス」性質が評価を困難にしています。2025年6月に発表されたLiveCodeBench Proの研究でも、最先端モデルが中程度の難易度の問題で53%の精度しか達成できず、難問では0%という結果が示されました。
今回の発見が示唆するのは、AIベンチマークそのものの信頼性の問題です。高いベンチマークスコアが真の能力を反映しているのか、それとも訓練データへの過剰適合の結果なのか、従来の評価手法では区別できません。特に、Centaurのような「認知シミュレーション」を標榜するモデルにおいて、最も重要であるはずの言語理解能力に致命的な欠陥があったという事実は、AI開発における評価手法の抜本的な見直しを迫るものです。
ポジティブな側面としては、この批判的研究が査読を経て発表されたことで、AI研究コミュニティにおける健全な自己検証機能が働いていることが示されました。一方で、潜在的なリスクとしては、過大評価されたAIモデルが医療や金融といった重要な意思決定領域に導入される危険性が挙げられます。
長期的には、この研究が指摘する「真の言語理解」こそが、汎用認知モデル構築における最大の技術的ボトルネックとなるでしょう。パターンマッチングを超えた本質的な理解能力の実現なくして、AIが人間のように思考することは不可能かもしれません。
【用語解説】
過学習(Overfitting)
機械学習モデルが訓練データを過度に学習し、暗記してしまう現象。新しいデータに対して汎用性を失い、訓練データでは高精度でも実用場面では性能が低下する。パターンの本質を理解するのではなく、表面的な統計的規則性だけを捉えてしまうことが原因である。
ファインチューニング
事前に訓練された大規模言語モデルを、特定のタスクやドメインに適応させるために追加の訓練を行う手法。少ないデータと計算資源で専門性を持たせることができるが、過学習のリスクも伴う。
QLoRA(Quantized Low-Rank Adaptation)
大規模言語モデルを効率的にファインチューニングする手法の一つ。モデルのパラメータを量子化し、低ランク適応を組み合わせることで、メモリ使用量を大幅に削減しながら高精度を維持する。
幻覚(Hallucination)
AIモデルが事実に基づかない情報を生成する現象。大規模言語モデルにおいて構造的に避けられない問題であり、モデルが訓練データに存在しないパターンを統計的に「創造」してしまうことで発生する。
ベンチマーク
AIモデルの性能を測定するための標準化されたテストや評価指標。しかし、ベンチマークでの高得点が実用場面での真の能力を保証するとは限らず、訓練データへの過学習を見逃す可能性がある。
【参考リンク】
Nature(外部)
世界最高峰の学術誌。1869年創刊の国際的な科学雑誌で、Centaurモデルの元論文が2025年7月に掲載された。
National Science Open(外部)
中国科学院が発行する国際学術誌。浙江大学の批判的研究が2026年2月に発表された査読付き学術誌。
Meta Llama(外部)
Metaが開発するオープンソース大規模言語モデル。
一部報道ではCentaurの基盤モデルとしてLlama系が用いられた可能性が指摘されているが、Nature論文では具体的型番は明示されていない。
浙江大学(Zhejiang University)(外部)
中国浙江省杭州市の国立総合大学。1897年創立の中国トップクラスの研究型大学。
【参考記事】
A foundation model to predict and capture human cognition(外部)
Centaurモデルの元論文。10.6百万の意思決定データで訓練され、160の実験で20%の精度向上を報告。
Cognitive Illusion: Why AI Still Can’t Think Like a Human(外部)
浙江大学の批判的検証を報じる2026年2月11日付記事。過学習により真の言語理解能力を欠くと指摘。
Centaur AI: Revolutionizing Human Behavior Prediction and Cognitive Science(外部)
Centaurの技術詳細を解説。60,000人以上の参加者データを使った訓練プロセスについて論じている。
What is Overfitting? | AWS(外部)
過学習の概念と仕組みを解説。訓練データを暗記し新データへの汎用性を失う現象のメカニズムを説明。
Hallucination is Inevitable: An Innate Limitation of Large Language Models(外部)
LLMにおける幻覚現象が理論的に避けられないことを証明した研究論文。Centaur問題の背景にある本質的課題を解説。
【編集部後記】
私たちが日常的に使っているAIツールは、本当に「理解」して答えているのでしょうか。高いベンチマークスコアや流暢な回答に目を奪われがちですが、Centaurの事例は、表面的な性能と真の能力の間には大きなギャップがあることを示しています。
ChatGPTやClaude、Geminiといった身近なAIも、もしかすると似たような限界を抱えているかもしれません。みなさんはAIの回答を受け取るとき、どんな基準で信頼性を判断していますか?この問いについて、ぜひ一緒に考えていきたいと思います。





































