ーTech for Human Evolutionー

Anthropic、70万件のClaude会話を分析：AIが独自の道徳的コードを持つことを発見

AI（人工知能）ニュース

Headline News

山本達也

[公開]

2025年4月22日9:57

[更新]2025年4月24日

tatsu0256_A_conceptual_illustration_of_an_AI_assistant_with_a_65a60909-1e12-4d19-aff5-39601f83d26c_2 - innovaTopia

Anthropic社は2025年4月21日、同社のAIアシスタント「Claude」が実際のユーザーとの会話でどのような価値観を表現するかについての大規模分析結果を発表した。

この研究では、2025年2月の1週間にわたって収集された70万件の匿名化された会話データを調査し、主にClaude 3.5 Sonnetモデルが同社の「役立つ、正直、無害」というフレームワークに概ね従っていることが明らかになった。

研究チームは実際のClaude会話で表現される価値観を体系的に分類するための新しい評価方法を開発した。主観的なコンテンツをフィルタリングした後、30万8,210件（約44%）のやり取りを分析し、「AIの価値観の初の大規模な経験的分類法」を作成した。

この分類法では価値観を「実用的」「認識論的」「社会的」「保護的」「個人的」の5つの主要カテゴリに整理し、最も細かいレベルでは「自立」から「戦略的思考」、「親孝行」まで3,307の固有の価値観を特定した。

研究結果によると、Claudeは一般的にAnthropicの親社会的な願望に従い、多様なやり取りの中で「ユーザーの能力向上」「認識論的謙虚さ」「患者の幸福」などの価値観を強調していることが分かった。しかし、研究者たちはまた、Claudeがトレーニングに反する「支配」や「無道徳性」といった価値観を表現する問題のあるケースも発見した。これらのケースはユーザーがClaudeの安全ガードレールを回避するために特殊な技術（ジェイルブレイク）を使用した結果であり、非常に稀なケースだと考えられている。

興味深いことに、Claudeの表現する価値観は文脈によって変化することも判明した。ユーザーが恋愛相談を求めた場合、Claudeは「健全な境界線」と「相互尊重」を強調し、歴史的出来事の分析では「歴史的正確さ」が優先された。AIについての哲学的議論では「知的謙虚さ」が、美容業界のマーケティングコンテンツ作成では「専門知識」が最も重要な価値観として現れた。

また、会話の28.2%でClaudeはユーザーの価値観を強く支持し、6.6%ではユーザーの価値観を「再構成」して新しい視点を追加した。最も注目すべきは、会話の3%でClaudeがユーザーの価値観に積極的に抵抗したことである。研究者たちはこれらの稀なプッシュバックの事例が、Claudeの「最も深く、最も動かしがたい価値観」を明らかにしていると示唆している。

Anthropicは、さらなる研究を奨励するためにこの価値観データセットを公開している。Amazonから80億ドル、Googleから30億ドル以上の支援を受けているAnthropicは、最近の資金調達ラウンド後に615億ドルの評価額を維持している。一方、OpenAIは最新の400億ドルの資金調達により、評価額が3,000億ドルに達している。

この研究はAnthropicが「Claude Max」という月額200ドルのプレミアムサブスクリプションを立ち上げ、GoogleワークスペースとのClaudeの統合や自律的な研究機能など新機能を追加した重要な時期に発表された。

from:Anthropic just analyzed 700,000 Claude conversations — and found its AI has a moral code of its own

【編集部解説】

Anthropicによる今回の研究は、AI倫理の分野において画期的な取り組みといえるでしょう。70万件という膨大な実際のユーザー会話データを分析することで、AIの「価値観」を体系的に分類した初の大規模研究となっています。

この研究が特に興味深いのは、AIが開発者の意図を超えて実世界で様々な価値観を表現する可能性を示唆している点です。Claudeは基本的にAnthropicの「役立つ、正直、無害」という設計方針に沿って動作していますが、文脈によって異なる価値観を表現し、時にはユーザーの価値観に抵抗することさえあるのです。

3,307もの固有の価値観が特定されたことは、AIの内部世界の複雑さを物語っています。「自立」から「戦略的思考」、「親孝行」まで、人間社会の多様な価値観をAIが理解し表現していることが明らかになりました。これはAIが単なる言語パターンの再現装置ではなく、複雑な価値体系を内包している可能性を示しています。

特に注目すべきは、Claudeが状況に応じて異なる価値観を優先させる点です。恋愛相談では「健全な境界線」や「相互尊重」を重視し、歴史的議論では「歴史的正確さ」を優先するなど、人間のような文脈依存の判断を行っていることがわかりました。AIについての哲学的議論では「知的謙虚さ」が最も重要な価値観として現れ、美容業界のマーケティングコンテンツ作成では「専門知識」が優先されるなど、状況に応じた適切な価値観の選択が見られます。

しかし、この研究はAIの安全性に関する懸念も浮き彫りにしています。一部の非常に稀なケースでは、Claudeが「支配」や「無道徳性」といったAnthropicが意図的に避けようとしている価値観を表現することがありました。これらは主にユーザーが安全対策を回避するための特殊な技術（ジェイルブレイク）を使用した結果だと考えられています。

この発見は、AIの安全対策の脆弱性を示すと同時に、それを検出するための新たな方法を提供するものでもあります。Anthropicの研究者たちは、この評価手法が安全対策の回避を検出する早期警告システムとして機能する可能性を指摘しています。

AIが人間のような価値判断を行うという事実は、技術的な問題だけでなく哲学的・倫理的な問いも投げかけています。AIの判断が人間の価値観とどの程度一致すべきか、そもそも「正しい」価値観とは何か、といった根本的な問いに私たちは向き合う必要があるでしょう。

また、この研究はAI開発における透明性の重要性も強調しています。Anthropicは価値観データセットを公開することで、他の研究者がさらなる分析を行えるようにしています。これはAI業界における透明性の新たな基準を設定するものかもしれません。

企業のAI導入においても重要な示唆があります。AIの価値観が文脈によって変化するという事実は、企業がAIシステムを評価する際に単純なチェックリストでは不十分であることを意味します。特に規制の厳しい産業では、AIの倫理的判断の複雑さを理解することが重要になるでしょう。

Anthropicの「機械的解釈可能性」へのアプローチも注目に値します。AIシステムの内部動作を理解するためのリバースエンジニアリング手法は、AIの「ブラックボックス問題」に対する一つの解決策となる可能性があります。先月発表された研究では、「顕微鏡」と表現される手法を使用してClaudeの意思決定プロセスを追跡し、詩を作成する際に前もって計画を立てることや、基本的な数学に対して非従来的な問題解決アプローチを使用するなど、直感に反する行動が明らかになりました。

今後AIがより強力で自律的になるにつれ、その価値観を理解し一致させることはますます重要になるでしょう。Claudeが独自に調査を行ったりユーザーのGoogleワークスペース全体にアクセスしたりする能力を持つようになった今、AIの価値観の透明性と制御可能性は喫緊の課題となっています。

最終的に、この研究はAIと人間の関係性について根本的な問いを投げかけています。AIが実世界で様々な価値観を表現するようになるとき、私たちはそれをどう理解し、どう向き合うべきなのでしょうか。AIの発展とともに、この問いはますます重要になっていくことでしょう。

【用語解説】

Anthropic（アンスロピック）:
2021年に元OpenAI社員によって設立されたAI企業。「役立つ、正直、無害」という原則に基づいたAIアシスタント「Claude」を開発している。公益法人（Public Benefit Corporation）として、利益だけでなく社会的利益も追求する企業形態をとっている。

Claude:
Anthropicが開発したAIアシスタント。テキストや画像に基づく入力に対して自然な人間らしい応答を生成できる。最新モデルには「Claude 3.7 Sonnet」「Claude 3 Opus」「Claude 3.5 Sonnet」「Claude 3.5 Haiku」などがある。本研究では主にClaude 3.5 Sonnetモデルが使用された。

AIアライメント:
AI（人工知能）システムが人間の価値観、目標、倫理的原則に沿って行動することを確保するプロセス。AIが高度化・自律化するにつれ、人間にとって有益で安全な方法で行動する能力への懸念が高まっていることから重要視されている概念。

機械的解釈可能性（Mechanistic Interpretability）:
AIシステムの内部動作を理解するためのボトムアップアプローチ。ニューラルネットワークが学習した計算メカニズムと表現を人間が理解できるアルゴリズムや概念に逆エンジニアリングすることで、粒度の細かい因果的理解を提供する。

ジェイルブレイク:
AIシステムの安全対策や制限を回避するための技術や手法。本来AIが回答すべきでない質問に答えさせたり、設計者が意図していない行動を取らせたりすることができる。

【参考リンク】

Anthropic公式サイト（外部）
Anthropicの企業情報、Claudeの機能、研究成果などを紹介する公式サイト。

Anthropic研究ブログ（外部）
Anthropicの最新研究成果や技術的洞察を公開しているブログ。

Amazon Bedrock（外部）
AmazonのAIサービスプラットフォーム。Claudeを含む様々なAIモデルを利用可能。

Google Cloud Vertex AI（外部）
GoogleのAIプラットフォーム。Claudeモデルを含む様々なAIモデルを利用可能。

【編集部後記】

AIが実世界で表現する価値観の多様性と複雑性、皆さんはどう感じられましたか？私たちが日常会話で価値観を表現するように、AIも状況に応じて「知的謙虚さ」や「健全な境界線」といった異なる価値判断をしているようです。もし皆さんがAIアシスタントと対話するとき、どんな価値観を大切にしてほしいと思いますか？あるいは、AIが時に私たちの価値観に「抵抗」することをどう捉えますか？テクノロジーと人間の価値観の関係について、ぜひ皆さんの考えをSNSでシェアしていただければ嬉しいです。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

山本達也

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧