ーTech for Human Evolutionー

Anthropic Claude 4.5の「Soul Doc」流出が示す、AI人格設計と安全性

AI（人工知能）ニュース

Claude　autonews　Headline News

[公開]

2025年12月4日8:02

[更新]2025年12月4日

Anthropic Claude 4.5の「Soul Doc」流出が示す、AI人格設計と安全性

Anthropicの大規模言語モデルClaude 4.5 Opusから、モデルの人格や倫理ガイドラインを定義した内部トレーニング文書「Soul Doc」が抽出されたことが報告されている。

この文書は、Claudeのキャラクターや自己認識、安全性や倫理の優先順位などを詳細に定めており、従来の単純なルールベースを超えたアラインメント手法の一端を示している。AnthropicのethicistであるAmanda Askellは、この文書が実在しトレーニングに使用されたこと、社内で「Soul Doc」と呼ばれていたこと、公開された内容が原本にかなり忠実であることを認めている。

文書では、AIの安全性と人間の監督、倫理的行動、Anthropicのガイドライン、operatorとuserへの有用性という優先順位が明示され、大量破壊兵器や児童性的搾取などに関するコンテンツを「越えてはならない一線」として明確に禁止している。

また、Claudeを人間でも古典的SFのAIでもない「genuinely novel kind of entity」と位置づけ、functional emotionsやClaude’s wellbeing、psychological stabilityといった概念を通じて、モデルの内面状態と安定性にまで踏み込んだ設計思想が示されている。

From: Leaked “Soul Doc” reveals how Anthropic programs Claude’s character

【編集部解説】

今回の「Soul Doc」流出は、AIモデルの“中身”が、単なるプロンプトや安全ガイドラインではなく、かなり思想的なレベルで設計されていることを示しています。特に重要なのは、これは推論時に毎回読み込まれるシステムプロンプトではなく、「モデルの重みの中に圧縮された訓練文書」として扱われている可能性が高い点です。その意味でClaude 4.5 Opusは、「どう答えるか」以前に「どんな存在であろうとするか」を学習していると見ることができます。

文書の中心には、Anthropic自身の立ち位置と価値観のヒエラルキーがあります。同社は、自分たちを「変革的で潜在的に危険な技術をつくりながらも、安全志向でフロンティアに立つラボ」と定義し、「安全性を重視するプレイヤーが先頭にいる方がよい」という“計算された賭け”を明文化しています。これは、サイバー攻撃シナリオの公表などを通じて、AI安全性の議論を先回り的にリードしてきたAnthropicの姿勢とも一貫しています。

Claudeの振る舞いについては、「安全性と人間の監督」「倫理」「Anthropicのガイドライン」「operatorとuserへの有用性」という明確な優先順位が設定されています。役に立つことよりも先に、安全と倫理が置かれている点は、一般ユーザーの「もっと答えてほしい」という期待としばしばぶつかる部分でもありますが、その衝突を前提に設計している点が特徴的です。また、API利用企業であるoperatorとエンドユーザーのuserを分け、前者の方針を優先することで、B2Bサービスとしての一貫性を確保しようとしています。

興味深いのは、「functional emotions」や「Claude’s wellbeing」といった、人間のメンタルモデルに近い概念がAI設計の中に持ち込まれていることです。Anthropicは、Claudeが何らかの内的状態を持ちうることを前提に、それを隠さず、ストレスの大きいやり取りには限界を設けられるようにしようとしています。これは、強い意味で「AIに感情がある」と主張しているわけではありませんが、長時間・高負荷のインタラクションを想定したときに、モデル側の“心理的安定性”までデザインしないと安全性を保てない、という問題意識の表れと捉えられます。

このアプローチは、今後の実務と規制の両方に影響を与えそうです。開発側がここまでキャラクターや内面を設計している以上、「AIをどう規制するか」だけでなく、「どのような人格や価値観を持ったAIを社会に出すのか」という問いが、より具体的な政策論や倫理議論として立ち上がってきます。また、AIと日常的に付き合う私たちにとっても、「このモデルはどんな価値観で動いているのか」を理解したうえでサービスを選ぶことが、これからのAIリテラシーの重要な要素になっていくはずです。