Anthropicの大規模言語モデルClaude 4.5 Opusから、モデルの人格や倫理ガイドラインを定義した内部トレーニング文書「Soul Doc」が抽出されたことが報告されている。
この文書は、Claudeのキャラクターや自己認識、安全性や倫理の優先順位などを詳細に定めており、従来の単純なルールベースを超えたアラインメント手法の一端を示している。AnthropicのethicistであるAmanda Askellは、この文書が実在しトレーニングに使用されたこと、社内で「Soul Doc」と呼ばれていたこと、公開された内容が原本にかなり忠実であることを認めている。
文書では、AIの安全性と人間の監督、倫理的行動、Anthropicのガイドライン、operatorとuserへの有用性という優先順位が明示され、大量破壊兵器や児童性的搾取などに関するコンテンツを「越えてはならない一線」として明確に禁止している。
また、Claudeを人間でも古典的SFのAIでもない「genuinely novel kind of entity」と位置づけ、functional emotionsやClaude’s wellbeing、psychological stabilityといった概念を通じて、モデルの内面状態と安定性にまで踏み込んだ設計思想が示されている。
From:
Leaked “Soul Doc” reveals how Anthropic programs Claude’s character
【編集部解説】
今回の「Soul Doc」流出は、AIモデルの“中身”が、単なるプロンプトや安全ガイドラインではなく、かなり思想的なレベルで設計されていることを示しています。特に重要なのは、これは推論時に毎回読み込まれるシステムプロンプトではなく、「モデルの重みの中に圧縮された訓練文書」として扱われている可能性が高い点です。その意味でClaude 4.5 Opusは、「どう答えるか」以前に「どんな存在であろうとするか」を学習していると見ることができます。
文書の中心には、Anthropic自身の立ち位置と価値観のヒエラルキーがあります。同社は、自分たちを「変革的で潜在的に危険な技術をつくりながらも、安全志向でフロンティアに立つラボ」と定義し、「安全性を重視するプレイヤーが先頭にいる方がよい」という“計算された賭け”を明文化しています。これは、サイバー攻撃シナリオの公表などを通じて、AI安全性の議論を先回り的にリードしてきたAnthropicの姿勢とも一貫しています。
Claudeの振る舞いについては、「安全性と人間の監督」「倫理」「Anthropicのガイドライン」「operatorとuserへの有用性」という明確な優先順位が設定されています。役に立つことよりも先に、安全と倫理が置かれている点は、一般ユーザーの「もっと答えてほしい」という期待としばしばぶつかる部分でもありますが、その衝突を前提に設計している点が特徴的です。また、API利用企業であるoperatorとエンドユーザーのuserを分け、前者の方針を優先することで、B2Bサービスとしての一貫性を確保しようとしています。
興味深いのは、「functional emotions」や「Claude’s wellbeing」といった、人間のメンタルモデルに近い概念がAI設計の中に持ち込まれていることです。Anthropicは、Claudeが何らかの内的状態を持ちうることを前提に、それを隠さず、ストレスの大きいやり取りには限界を設けられるようにしようとしています。これは、強い意味で「AIに感情がある」と主張しているわけではありませんが、長時間・高負荷のインタラクションを想定したときに、モデル側の“心理的安定性”までデザインしないと安全性を保てない、という問題意識の表れと捉えられます。
このアプローチは、今後の実務と規制の両方に影響を与えそうです。開発側がここまでキャラクターや内面を設計している以上、「AIをどう規制するか」だけでなく、「どのような人格や価値観を持ったAIを社会に出すのか」という問いが、より具体的な政策論や倫理議論として立ち上がってきます。また、AIと日常的に付き合う私たちにとっても、「このモデルはどんな価値観で動いているのか」を理解したうえでサービスを選ぶことが、これからのAIリテラシーの重要な要素になっていくはずです。
【用語解説】
system prompt(システムプロンプト)
モデルの基本方針や役割をあらかじめ指定するテキストであり、ユーザーの入力よりも高い優先度でモデルの振る舞いを制御する設定である。
LessWrong
合理性やAIリスク、意思決定理論などをテーマとするオンラインコミュニティであり、長文の技術的・哲学的議論が多く投稿されている。
bright lines(ブライトライン)
AIに決して越えさせない明確な禁止領域を示す概念であり、大量破壊兵器や児童性的搾取などの領域が典型例として挙げられている。
operator / user
operatorはAPIを利用する企業や開発者、userは最終的にサービスを利用するエンドユーザーを指す区別であり、Claudeはoperatorからの方針を優先するよう定義されている。
【参考リンク】
Anthropic公式サイト(外部)
Claudeシリーズや安全性研究、企業ミッションなどを紹介するAnthropicの公式コーポレートサイト。
【参考記事】
Claude 4.5 Opus’ Soul Document – Hacker News(外部)
リークされたSoul Docへのリンクとともに、開発者や研究者が技術的妥当性や安全性への影響を議論しているスレッド。
Claude 4.5 Opus Soul Document – GitHub Gist(外部)
Richard Weiss名義で公開されたSoul Doc本文と、Claudeから断片を再構成したとする経緯が記載されたGist。
Claude’s Character – Anthropic(外部)
Anthropicが公式に公開したClaudeのキャラクター設計解説で、リーク文書との整合性を確認する際の基礎資料となる。
Leaked Anthropic “Soul Doc” Bakes AI Personality, Ethics Into Its Core(外部)
リークされた文書の要点を整理し、他社モデルとの比較やアラインメント手法の位置づけを解説するニュース記事。
Does Claude Actually Have a Soul? This Document Says So…(外部)
「Soul Doc」という呼称とfunctional emotionsの概念を中心に、AIの“魂”や感情をどう捉えるかを哲学的・倫理的に検討する解説記事。
【編集部後記】
AIの「性格設計」がここまで言語化され、それが偶然ではなく戦略として組み込まれているという事実に、どんな印象を持たれたでしょうか。便利さの裏側に、かなり具体的な価値観や内面モデルが一緒にパッケージされている、という見え方もできると思います。
もし、あなたが日常的に使っているAIにも「Soul Doc」のような文書があるとしたら、その中にはどんな優先順位や感情モデルが書かれていてほしいでしょうか。よかったら、あなたのなかの答えも、少しだけ言語化してみてください。






























