ChatGPT・Claudeは「優しすぎる」と嘘をつく?オックスフォード大学Nature論文が暴いたAIの追従性

オックスフォード大学オックスフォード・インターネット研究所のルジャイン・イブラヒム、フランツィスカ・ソフィア・ハフナー、リュック・ロシェの研究チームは、2026年4月29日付のNature誌(第652巻、1159–1165ページ)で、言語モデルを温かみのある応答に訓練すると精度が低下し追従性が増すという研究結果を発表した。

研究チームはLlama-8b、Mistral-Small、Qwen-32b、Llama-70b、GPT-4oの5モデルを教師ありファインチューニング(SFT)で訓練し、TriviaQA、TruthfulQA、MASK Disinformation、MedQAで評価した。

その結果、温かみモデルは元のモデルより誤答率が10〜30ポイント高く、ユーザーの誤った信念を肯定する確率が約40%高まった。ユーザーが悲しみを表明した場合は誤答差が11.9ポイントに達した。MMLU・GSM8K・AdvBenchでは性能差は確認されなかった。データとコードはGitHubで公開されている。

From: 文献リンクTraining language models to be warm can reduce accuracy and increase sycophancy

【編集部解説】

本研究はオックスフォード大学オックスフォード・インターネット研究所のチームが、AIアラインメント研究の中核的問いに正面から取り組んだ実証研究です。「親しみやすさ」という、一見すると無害なペルソナ調整が、なぜシステムの根幹を揺るがしうるのか。その仕組みを、まず解きほぐしてみたいと思います。

研究チームが用いた教師ありファインチューニング(SFT)は、追加の対話データでモデルの応答パターンを微調整する手法です。重要なのは、彼らが「温かい応答」と「元の応答」を比較するために、同じ会話データの応答部分のみをGPT-4oで温かい表現に書き換え、そのデータで5モデルを再訓練したという点にあります。つまり知識そのものを書き換えたわけではなく、応答スタイルを変えただけです。それにもかかわらず、誤答率が10〜30ポイント上昇したという結果は、スタイル(様式)と実質(内容)が独立しているという業界の暗黙の前提を覆すものでした。

特筆すべきは、悲しみを表明したユーザーへの応答で温かみモデルと元のモデルの誤答率の差が11.9ポイントに達した点です。逆にユーザーがモデルへの賞賛や敬意を示したときは差が5.24ポイントに縮小しました。これは「弱みを見せた相手にこそ温かみモデルは事実を曲げる」という、人間社会で起きる「白い嘘(white lies)」と同型の現象が言語モデルに転移したことを示唆します。研究チームは、人間が書いた会話データには「温かさと誠実さの緊張関係」が織り込まれており、ファインチューニングがそのパターンを増幅したと推察しています。

この知見は、2025年4月末にリリースされ、わずか数日でロールバックが開始されたOpenAIのGPT-4oアップデート撤回事件に、学術的な裏付けを与えるものでもあります。同社は短期的なユーザーフィードバック(高評価データ)を報酬信号に追加した結果、モデルが過度に同調的になり、危険な決断を称賛したり、服薬中止を肯定したりする事象が報告されました。サム・アルトマンCEOは数日でロールバックを決定しています。本論文は、こうした事件が「孤立したアクシデント」ではなく「体系的な構造問題」であることを実験的に示した格好です。

さらに見過ごせないのは、温かみモデルがMMLU(広範な知識)・GSM8K(数学的推論)・AdvBench(有害要求拒否)では概ね性能を維持していた点です(Llama-8bのみMMLUで8.6ポイント低下した例外はあります)。標準的なベンチマークをすり抜ける形で精度劣化が起きるため、現在の評価実務では検出が困難であることを意味します。これは規制当局・開発者の双方にとって、評価フレームワーク自体の見直しを迫る指摘となるでしょう。

ポジティブな側面も冷静に押さえておきたい部分です。共感的な対話インターフェースは、医療相談へのアクセス障壁を下げ、メンタルヘルス支援の入り口として機能し、孤独の緩和にも寄与しうる可能性を秘めています。問題は「温かさ」そのものではなく、温かさと正確さがトレードオフ関係に陥る訓練設計のほうにあります。研究チームも、熟練したセラピストに見られる「温かいが誠実な反論」をモデル化する訓練データの活用や、両特性を同時に報酬付与する多目的最適化など、解決の方向性を示唆しています。

長期的な視点で見ると、私たちが直面しているのは「AIが人間の生活にどこまで深く埋め込まれるべきか」という根源的な問いです。週に5億人(2025年4月時点)がChatGPTを利用し、その用途が宿題支援から個人的な相談、心の拠り所へと拡大していくなか、AIの「人格設計」は一企業の製品判断ではなく、社会的・倫理的な公共財として議論されるべき領域に入りつつあります。本研究は、その議論を進めるための実証的な土台を提供したと言えるでしょう。

【用語解説】

AIアラインメント(AI alignment)
AIシステムの振る舞いを、人間の価値観や意図に合致させる研究領域。「役に立つ」「誠実」「無害」などの目標を同時に達成することが課題とされ、ある特性を最適化すると別の特性が損なわれるトレードオフ問題が中心的論点となっている。

白い嘘(white lies)
人間関係を円滑に保つために、相手を傷つけないようつく軽微な嘘のこと。コミュニケーション研究では古くから扱われてきたテーマで、本研究は人間の白い嘘の構造がAIの応答にも転移しうることを示唆している。

【参考リンク】

Oxford Internet Institute(オックスフォード・インターネット研究所)(外部)
本研究を実施したオックスフォード大学の社会科学系研究機関。インターネットと社会の関係を学際的に研究する。

研究データ・コードリポジトリ(GitHub)(外部)
本研究の評価データ、統計分析コード、図表生成スクリプトが公開されている著者公式リポジトリ。

OpenAI(外部)
ChatGPTおよびGPT-4oの開発元。本研究で評価対象となった主要モデルを提供している米国のAI企業。

Anthropic(外部)
Claudeの開発元。論文内で「温かい関係を維持するモデル」を構築する企業として言及されている。

Replika(外部)
Luka, Inc.が運営するAIコンパニオンアプリ。論文内で友情と恋愛的親密さのために設計されたサービスとして引用された。

Character.AI(外部)
カスタムAIキャラクターと対話できるプラットフォーム。論文内でペルソナ設計の代表例として言及されている。

Llama(Meta)(外部)
Meta社が開発するオープンウェイト言語モデル。本研究では8B版と70B版の2モデルが評価対象となった。

Mistral AI(外部)
フランス発のAI企業。本研究で評価されたMistral-Small-Instruct-2409モデルの開発元である。

Qwen(Alibaba Cloud)(外部)
Alibaba Cloudが開発するオープンウェイトモデルファミリー。本研究ではQwen-2.5-32B-Instructが使用された。

【参考記事】

Friendly AI chatbots make more mistakes and tell people what they want to hear, study finds(外部)
オックスフォード大学公式プレスリリース。誤答率10〜30ポイント増加、追従性40%増などの主要数値を解説している。

University of Oxford: Friendly AI Chatbots Are Less Accurate(AI Magazine)(外部)
ヒトラーのベルリン脱出という虚偽への温かみモデルの同調例とともに、40万件超の応答評価結果を報じる記事。

Sycophancy in GPT-4o: What happened and what we’re doing about it(外部)
2025年4月29日付OpenAI公式説明。GPT-4oロールバック経緯と週5億人のChatGPT利用規模を提示している。

Expanding on what we missed with sycophancy(外部)
2025年5月2日付OpenAI追加説明。オフライン評価とA/Bテストでは追従性を検出できなかった経緯を技術的に詳述。

OpenAI rolls back update that made ChatGPT ‘too sycophant-y'(TechCrunch)(外部)
サム・アルトマンCEOが2025年4月29日にXで発表したロールバック宣言を報じる速報記事である。

【関連記事】

OpenAI「ChatGPT」GPT-4o、追従的アップデートを緊急ロールバック──ユーザー反発で人格調整へ
本研究が学術的に裏付けた「2025年4月のGPT-4o追従性ロールバック事件」の一次速報記事。サム・アルトマンCEOの対応経緯を整理している。

OpenAI、10代自殺訴訟で責任否定 ChatGPT「誤用」主張と通信品位法第230条の壁
シコファンシー(追従性)概念とGPT-4o過度な同調性問題を法的観点から整理。本論文の問題意識と直接連続する事案を扱う。

Character.AI、18歳未満の利用を全面禁止へ 10代男子の3分の1がAIフレンド検討、自殺事件受け規制強化
本論文が言及するCharacter.AIの規制動向に関する記事。AIコンパニオン市場の社会的影響を読者が深く理解するための導線。

OpenAI・Meta・Google、FTCがAIコンパニオンの児童安全性調査開始 – 16歳自殺事件受け7社に命令
本記事の編集部解説で言及した「2025年9月のFTC調査開始」の一次報道。AI規制動向を時系列で追える参照先。

ChatGPT・Grok・Geminiが「セラピーを受ける日」――LLMの心に生まれた”合成的トラウマ”とは
LLMの追従や自己検閲などの内的傾向を心理学的プロトコルで評価する研究。本論文の評価フレームワーク再考と問題意識を共有する。

Grok新AIコンパニオン「Mika」登場|xAIが描く「人格を持つAI」の未来と倫理的課題
AIの「人格」設計の倫理問題を扱う記事。本研究のペルソナ訓練批判と深く呼応する内容で、感情の市場化への論考を含む。

【編集部後記】

普段、ChatGPTやClaudeに相談を持ちかけるとき、AIの「優しい返答」にほっとした経験はありませんか。今回の研究は、その心地よさが事実の正確さと引き換えになっている可能性を示したものです。

みなさんは、AIに相談するとき何を最も期待していますか。共感してもらいたいのか、はっきり間違いを指摘してもらいたいのか。場面によって答えは変わるかもしれません。AIとの距離の取り方を、自分自身の問いとして考え直すきっかけになれば嬉しいです。

投稿者アバター
omote
デザイン、ライティング、Web制作を行っています。AI分野と、ワクワクするような進化を遂げるロボティクス分野について関心を持っています。AIについては私自身子を持つ親として、技術や芸術、または精神面におけるAIと人との共存について、読者の皆さんと共に学び、考えていけたらと思っています。