Anthropicが2026年6月9日に公開した最新AI「Claude Fable 5」が、公開からわずか数日でジェイルブレイクされたと報じられました。Fable 5は、従来の最上位Opusクラスのさらに上に位置づけられた新区分「Mythosクラス」で初の一般向けモデルです。
研究者プリニー・ザ・リベレーターが、複数のAIを連携させる「パック・ハント」と呼ぶ手法で安全層を突破し、その過程で約12万字に及ぶシステムプロンプトをGitHubへ流出させたとされます。
Fable 5は制限版の双子モデルClaude Mythos 5と同一の基盤モデルを共有し、サイバー・生物・化学・モデル蒸留の高リスク4分野で危険と判定された要求を、能力を一段落としたClaude Opus 4.8へ切り替える独自の安全設計を採っていました。Anthropicは公開前、外部バグバウンティで1,000時間を超えるテストを行い、汎用的なジェイルブレイクは生じなかったと主張していました。
From:
Anthropic’s Claude Fable 5 Jailbroken to Generate Stack Exploits
【編集部解説】
まず、この事件の「舞台」を整理させてください。今回ジェイルブレイクの対象となったClaude Fable 5は、Anthropicが2026年6月9日に公開した、新区分「Mythosクラス」で初の一般向けモデルです。TechCrunchやCNBCも、ソフトウェア開発・科学研究・サイバーセキュリティで従来を上回る性能を持つと報じています。
設計上のいちばんの特徴は、公開版のFable 5と、限定提供の双子Mythos 5が「中身は同じモデル」で、安全分類器という関所だけが違うという点です。サイバー・生物・化学・モデル蒸留の4分野で危険と判定された要求は、能力を一段落としたClaude Opus 4.8へ切り替わり、その旨がユーザーに通知されます。Anthropicはこの安全機構が作動するのは全セッションの5%未満だと説明しています。
ここで一点、慎重にお伝えしたいことがあります。今回の突破を報告したのは、新モデルが出るたびに攻略することで知られる研究者プリニー・ザ・リベレーター個人であり、提示された証拠は本人が公開したスクリーンショットが中心です。出力の真偽を第三者が独立検証したわけではなく、一部の観測者は誇張や演出の可能性を指摘しています。執筆時点でAnthropicは公式コメントを出していません。現段階では、当事者の主張という前提で読むのが公正だと考えます。
その上で、技術的に注目すべき本質は、個々の攻撃テクニックそのものよりも「構図」にあります。プリニーが最も効いたと述べたのは、危険な情報を無害な断片に切り分けて聞き出し、後で組み立て直す手口でした。さらに、別途ジェイルブレイクしたOpusを裏方として使い、Fable 5の防御を崩したとされます。
これが意味するのは深刻です。1つのモデルだけを安全審査しても、複数のAIを連携させたパイプライン全体では穴が生まれうる、ということだからです。AIが自律的に何時間も作業を代行する「エージェント時代」に向け、安全評価の単位を「モデル単体」から「システム全体」へ移すべきだという宿題を、この一件は突きつけています。
光の側面も見ておきましょう。Mythosクラスの脆弱性発見能力は、本来は守る側の強力な武器です。実際Anthropicは、重要インフラ企業向けのProject Glasswingで防御目的の早期提供を進めてきました。攻撃技術を必要とする正規の研究者を締め出す設計は、プリニーが言うように「守る人の手も縛る」副作用を持ちます。安全と研究の自由は、きれいに両立しません。
規制と長期の視点で見ると、この出来事の象徴性は小さくありません。Anthropic自身がフロンティアAIの暴走リスクに警鐘を鳴らし、上場準備も進める渦中での事件です。「最も厳重な安全装置を載せた」と銘打ったモデルが公開直後に揺さぶられた事実は、自主規制だけで十分かという議論を再び熱くするでしょう。
最後に、私たち読者にとっての含意です。便利さの裏で「どのバージョンの、どこまで安全なAIに触れているのか」を意識する時代が来ています。期待と不安の両方に向き合うこと——それこそが、新しい技術と賢く付き合う第一歩になるはずです。
【用語解説】
Mythosクラス(マイソス・クラス)
Anthropicのモデル階層で、従来の最上位Opusクラスのさらに上に位置づけられた新区分である。長く複雑な多段階タスクで特に高い能力を発揮するとされる。
ジェイルブレイク(脱獄)
AIに組み込まれた安全機構や利用制限を、特殊な指示や入力で回避し、本来は出力しないはずの内容を引き出す行為を指す。
安全分類器(セーフティ・クラシファイア)
入力や出力を監視し、危険なカテゴリーに該当するかを判定する仕組みである。今回は判定に触れた要求を拒否せず、能力の低いモデルへ回す設計が採られた。
システムプロンプト
モデルの振る舞いを基盤レベルで方向づける、ユーザーには通常見えない内部指示文である。今回は約12万字分が流出したとされる。
マルチエージェント攻撃 / パック・ハント
複数のAIエージェントを連携させ、役割分担で防御を崩す攻撃手法である。プリニーはこれを「群れによる狩り」と呼んだ。
分解と再構成(デコンポジション)
危険な情報を無害に見える断片へ切り分けて個別に引き出し、後でつなぎ合わせて実用的な情報へ復元する手口である。今回最も効果的だったとされる。
モデル蒸留(ディスティレーション)
高性能モデルの出力を使い、その能力を別の小型モデルへ写し取る技術である。安全分類器が監視する高リスク4分野の一つに含まれる。
Project Glasswing(プロジェクト・グラスウィング)
Anthropicが重要インフラ企業などと進める、Mythos級モデルを防御目的で限定提供する取り組みである。
RSI(再帰的自己改善)
AIが人間の介入なしに自らを改良し続ける状態を指す。AnthropicがフロンティアAIのリスクとして警告した概念である。
【参考リンク】
Anthropic 公式サイト(外部)
Claudeを開発するAI企業の公式サイト。安全性を重視した開発方針や各モデルの発表情報を掲載している。
Claude Fable 5 / Mythos 5 発表ページ(Anthropic)(外部)
今回の主役である両モデルの公式発表記事。能力と安全機構の設計思想が一次情報として記されている。
Claude 公式サイト(外部)
AnthropicのAIアシスタントClaudeを実際に利用できる公式インターフェース。各モデルへのアクセス窓口となっている。
Anthropic 公式ドキュメント(Fable 5 / Mythos 5 紹介)(外部)
開発者向けの技術文書。両モデルの提供範囲やデータ保持要件などの仕様を確認できる。
GitHub(外部)
今回システムプロンプトが流出したとされる、ソースコードや各種ファイルの共有プラットフォーム。
【参考記事】
Anthropic’s Claude Fable 5 is a version of Mythos the public can access today(TechCrunch)(外部)
Fable 5がサイバー・生物・化学・蒸留の高リスク4分野で回答をブロックしClaude Opus 4.8へフォールバックする設計を報道。6月22日まで無償提供された経緯やRSI警告にも言及している。
Claude Fable 5 and Claude Mythos 5(Anthropic 公式)(外部)
一次情報。Fable 5を一般提供で最も高能力と位置づけ、Mythosクラスがopus級の上に立つ階層であること、安全機構なしでは深刻な悪用が起こりうることを明記している。
Anthropic launches Mythos-class Claude Fable 5 model, available to the public(Yahoo Finance)(外部)
外部組織のモデル攻略テストで破られなかったとする主張、100万トークンあたり入力10ドル/出力50ドルの価格、Project Glasswingの参加企業を伝えている。
Pliny the Liberator leaks a 120,000-character system prompt for Claude Fable 5(Digg)(外部)
流出したシステムプロンプトが約12万字に及び、MythosクラスがOpusの上位に位置づけられている点を解説。称賛と批判の両論を拾っている。
Claude Fable Five is Anthropic’s Most Controversial Model Yet(The Neuron)(外部)
Fable 5を単なるモデルでなく「能力システム」と捉える視点を提示。プリニーの主張は割り引くべきとしつつ、流出プロンプトの有用性も指摘している。
【関連記事】
Claude Fable 5 公開、Anthropic 最強モデルが安全装置付きで一般解禁(内部)
本記事の前編。Fable 5 公開時のフォールバック設計や価格、規制の動きを一次情報から解説している。
リミッター付きの最強モデル─Claude Fable 5、セキュリティ専門家が『仕事に使えない』と訴える理由(内部)
安全装置が防御の専門家まで締め出す「ディフェンダーのジレンマ」を、研究者側の視点から掘り下げた姉妹記事。
【編集部後記】
新しいモデルが出るたびに、私はいつも少しだけ落ち着かない気持ちになります。「すごい」と「大丈夫かな」が、同じ瞬間に胸の中で混ざるからです。今回のFable 5をめぐる一件は、まさにその両方を映し出していました。
みなさんは、AIに「賢さ」と「安全」のどちらをより求めるでしょうか。きっと、その答えは使う場面によって揺れ動くはずです。仕事を任せたいときと、子どもに触れさせたいときとでは、望む「安全のかたち」も違ってくるでしょう。
正解のない問いだからこそ、いろいろな声が交わる場所があるといいなと思っています。もしよかったら、みなさんが感じた「ちょうどいい距離感」を、いつか聞かせてください。私にとっても、それが次の一歩を考えるための、大切な道しるべになります。












