ーTech for Human Evolutionー

OpenAI GPT-4.5がチューリングテストを73%で通過 UCサンディエゴ校研究が示すAIの人間らしさの本質

AI（人工知能）ニュース

Headline News

野村貴之

[公開]

2025年4月21日13:19

[更新]2025年7月2日

image - 2025-04-21T122849175 - innovaTopia

2025年3月31日、米国カリフォルニア大学サンディエゴ校の認知科学研究チームが、OpenAIのAIモデル「GPT-4.5」がチューリングテストに合格したとする査読前論文を発表した。チューリングテストは、イギリスの数学者アラン・チューリングが1950年に提案したもので、AIと人間がテキストチャットで対話し、評価者がどちらが人間かを判定する試験である。

今回の実験では、大学の学生126名とオンラインで募集した一般参加者158名、合計284名を対象に、5分間のテキストチャットを実施し、被験者が相手を人間かAIか判定した。テストは合計1024回行われ、GPT-4.5には「内向的でインターネット文化に詳しく、スラングを使う若者」といったペルソナ（人格）を演じるよう指示されたバージョンも用意された。

その結果、GPT-4.5（ペルソナあり）は73%の確率で人間と誤認され、チューリングテストの合格基準（70%）を上回った。比較として、Metaの「LLaMa-3.1-405B」（ペルソナあり）は56%、GPT-4.5（ペルソナなし）は36%、OpenAIの「GPT-4o」は21%、1966年開発の古典的AI「ELIZA」は23%という結果だった。

この研究により、GPT-4.5は標準的なチューリングテストで初めて「合格」したAIモデルとなった。なお、今回テストに使われたGPT-4.5は、2024年初頭に提供されていた「GPT-4-turbo」と同等とみられている。

※Preprint（プレプリント）
https://arxiv.org/pdf/2503.23674
from:
ChatGPT just passed the Turing test—but that doesn’t mean AI is now as smart as humans

【編集部解説】

AIの「人間らしさ」が突きつける倫理的課題
GPT-4.5がチューリングテストを通過した事実は、自然言語処理技術の飛躍的進化を証明する一方で、技術の社会的受容性に関する新たな問いを投げかけています。本実験で特筆すべきは、AIに「内向的でインターネット文化に詳しい若者」という人格設定（ペルソナ）を与えた場合、判定率が36%から73%に急上昇した点です。これは、AIの振る舞いがプロンプト設計に強く依存することを示し、技術の「使い方」が倫理的影響を左右することを再認識させます。

技術評価のパラダイムシフト
従来のチューリングテスト批判の核心は「会話模倣≠知性」という点にありました。しかし今回、人間判定率が実在の人物を上回った事実（人間の判定率63% vs GPT-4.5 73%）は、評価基準そのものの再定義を迫ります。UCサンディエゴ校の研究チームが指摘するように、被験者がAI判定の根拠としたのは「知識量」ではなく「社交性」や「応答の自然さ」でした。これは、AI評価が「知性」から「共感力」の領域にシフトしつつあることを意味します。

産業界への波及効果とリスク
即時的な影響として、カスタマーサポートやコンテンツモデレーション分野でのAI導入加速が予想されます。実際、実験で使用された5分間チャットセッションは、多くのコールセンターの平均応対時間に近似しています。ただし、感情認識を装ったAIが人間の心理操作に利用される「人工共感（Artificial Empathy）」の危険性、そしてプロンプト設計者による意図的な人格操作の可能性には警戒が必要です。

規制フレームワークの再構築
欧州AI法（AI Act）では「人間の判断を代替するAIシステム」を高リスク分類していますが、今回の結果は規制対象の再定義を迫るものです。特に、GPT-4.5が示した「人間を上回る共感力」は、医療カウンセリングや法廷調停などセンシティブな領域での誤用リスクを孕んでいます。イノベーション促進とリスク管理のバランスをどう取るか——これは技術者だけでなく、社会全体で議論すべき課題です。

人間性の再定義に向けて
innovaTopiaが提唱する「人間の進化を助けるテクノロジー」の観点から見れば、この技術革新は人間の創造性を解放する契機となり得ます。例えば、ルーティン業務をAIに委ねた上で、人間は戦略的思考や倫理的判断に集中する新しい分業形態が想定されます。ただしその実現には、AIシステムの意思決定プロセスを可視化する「説明可能AI（XAI）」の進化が不可欠です。

今必要なのは、技術の可能性と限界を冷静に分析する「知性のメタ認知」です。チューリングテストの結果を過大評価するのでもなく、過小評価するのでもなく——テクノロジーが人間性を拡張する道具として機能するための制度的・教育的インフラ整備が、次のフェーズの鍵となるでしょう。