Claude Fable 5、公開数日でジェイルブレイクか—Anthropicの最新AIに何が起きたか

Anthropicが2026年6月9日に公開した最新AI「Claude Fable 5」が、公開からわずか数日でジェイルブレイクされたと報じられました。Fable 5は、従来の最上位Opusクラスのさらに上に位置づけられた新区分「Mythosクラス」で初の一般向けモデルです。

研究者プリニー・ザ・リベレーターが、複数のAIを連携させる「パック・ハント」と呼ぶ手法で安全層を突破し、その過程で約12万字に及ぶシステムプロンプトをGitHubへ流出させたとされます。

Fable 5は制限版の双子モデルClaude Mythos 5と同一の基盤モデルを共有し、サイバー・生物・化学・モデル蒸留の高リスク4分野で危険と判定された要求を、能力を一段落としたClaude Opus 4.8へ切り替える独自の安全設計を採っていました。Anthropicは公開前、外部バグバウンティで1,000時間を超えるテストを行い、汎用的なジェイルブレイクは生じなかったと主張していました。

From: 文献リンクAnthropic’s Claude Fable 5 Jailbroken to Generate Stack Exploits

【編集部解説】

まず、この事件の「舞台」を整理させてください。今回ジェイルブレイクの対象となったClaude Fable 5は、Anthropicが2026年6月9日に公開した、新区分「Mythosクラス」で初の一般向けモデルです。TechCrunchやCNBCも、ソフトウェア開発・科学研究・サイバーセキュリティで従来を上回る性能を持つと報じています。

設計上のいちばんの特徴は、公開版のFable 5と、限定提供の双子Mythos 5が「中身は同じモデル」で、安全分類器という関所だけが違うという点です。サイバー・生物・化学・モデル蒸留の4分野で危険と判定された要求は、能力を一段落としたClaude Opus 4.8へ切り替わり、その旨がユーザーに通知されます。Anthropicはこの安全機構が作動するのは全セッションの5%未満だと説明しています。

ここで一点、慎重にお伝えしたいことがあります。今回の突破を報告したのは、新モデルが出るたびに攻略することで知られる研究者プリニー・ザ・リベレーター個人であり、提示された証拠は本人が公開したスクリーンショットが中心です。出力の真偽を第三者が独立検証したわけではなく、一部の観測者は誇張や演出の可能性を指摘しています。執筆時点でAnthropicは公式コメントを出していません。現段階では、当事者の主張という前提で読むのが公正だと考えます。

その上で、技術的に注目すべき本質は、個々の攻撃テクニックそのものよりも「構図」にあります。プリニーが最も効いたと述べたのは、危険な情報を無害な断片に切り分けて聞き出し、後で組み立て直す手口でした。さらに、別途ジェイルブレイクしたOpusを裏方として使い、Fable 5の防御を崩したとされます。

これが意味するのは深刻です。1つのモデルだけを安全審査しても、複数のAIを連携させたパイプライン全体では穴が生まれうる、ということだからです。AIが自律的に何時間も作業を代行する「エージェント時代」に向け、安全評価の単位を「モデル単体」から「システム全体」へ移すべきだという宿題を、この一件は突きつけています。

光の側面も見ておきましょう。Mythosクラスの脆弱性発見能力は、本来は守る側の強力な武器です。実際Anthropicは、重要インフラ企業向けのProject Glasswingで防御目的の早期提供を進めてきました。攻撃技術を必要とする正規の研究者を締め出す設計は、プリニーが言うように「守る人の手も縛る」副作用を持ちます。安全と研究の自由は、きれいに両立しません。

規制と長期の視点で見ると、この出来事の象徴性は小さくありません。Anthropic自身がフロンティアAIの暴走リスクに警鐘を鳴らし、上場準備も進める渦中での事件です。「最も厳重な安全装置を載せた」と銘打ったモデルが公開直後に揺さぶられた事実は、自主規制だけで十分かという議論を再び熱くするでしょう。

最後に、私たち読者にとっての含意です。便利さの裏で「どのバージョンの、どこまで安全なAIに触れているのか」を意識する時代が来ています。期待と不安の両方に向き合うこと——それこそが、新しい技術と賢く付き合う第一歩になるはずです。

【用語解説】

Mythosクラス(マイソス・クラス)
Anthropicのモデル階層で、従来の最上位Opusクラスのさらに上に位置づけられた新区分である。長く複雑な多段階タスクで特に高い能力を発揮するとされる。

ジェイルブレイク(脱獄)
AIに組み込まれた安全機構や利用制限を、特殊な指示や入力で回避し、本来は出力しないはずの内容を引き出す行為を指す。

安全分類器(セーフティ・クラシファイア)
入力や出力を監視し、危険なカテゴリーに該当するかを判定する仕組みである。今回は判定に触れた要求を拒否せず、能力の低いモデルへ回す設計が採られた。

システムプロンプト
モデルの振る舞いを基盤レベルで方向づける、ユーザーには通常見えない内部指示文である。今回は約12万字分が流出したとされる。

マルチエージェント攻撃 / パック・ハント
複数のAIエージェントを連携させ、役割分担で防御を崩す攻撃手法である。プリニーはこれを「群れによる狩り」と呼んだ。

分解と再構成(デコンポジション)
危険な情報を無害に見える断片へ切り分けて個別に引き出し、後でつなぎ合わせて実用的な情報へ復元する手口である。今回最も効果的だったとされる。

モデル蒸留(ディスティレーション)
高性能モデルの出力を使い、その能力を別の小型モデルへ写し取る技術である。安全分類器が監視する高リスク4分野の一つに含まれる。

Project Glasswing(プロジェクト・グラスウィング)
Anthropicが重要インフラ企業などと進める、Mythos級モデルを防御目的で限定提供する取り組みである。

RSI(再帰的自己改善)
AIが人間の介入なしに自らを改良し続ける状態を指す。AnthropicがフロンティアAIのリスクとして警告した概念である。

【参考リンク】

Anthropic 公式サイト(外部)
Claudeを開発するAI企業の公式サイト。安全性を重視した開発方針や各モデルの発表情報を掲載している。

Claude Fable 5 / Mythos 5 発表ページ(Anthropic)(外部)
今回の主役である両モデルの公式発表記事。能力と安全機構の設計思想が一次情報として記されている。

Claude 公式サイト(外部)
AnthropicのAIアシスタントClaudeを実際に利用できる公式インターフェース。各モデルへのアクセス窓口となっている。

Anthropic 公式ドキュメント(Fable 5 / Mythos 5 紹介)(外部)
開発者向けの技術文書。両モデルの提供範囲やデータ保持要件などの仕様を確認できる。

GitHub(外部)
今回システムプロンプトが流出したとされる、ソースコードや各種ファイルの共有プラットフォーム。

【参考記事】

Anthropic’s Claude Fable 5 is a version of Mythos the public can access today(TechCrunch)(外部)
Fable 5がサイバー・生物・化学・蒸留の高リスク4分野で回答をブロックしClaude Opus 4.8へフォールバックする設計を報道。6月22日まで無償提供された経緯やRSI警告にも言及している。

Claude Fable 5 and Claude Mythos 5(Anthropic 公式)(外部)
一次情報。Fable 5を一般提供で最も高能力と位置づけ、Mythosクラスがopus級の上に立つ階層であること、安全機構なしでは深刻な悪用が起こりうることを明記している。

Anthropic launches Mythos-class Claude Fable 5 model, available to the public(Yahoo Finance)(外部)
外部組織のモデル攻略テストで破られなかったとする主張、100万トークンあたり入力10ドル/出力50ドルの価格、Project Glasswingの参加企業を伝えている。

Pliny the Liberator leaks a 120,000-character system prompt for Claude Fable 5(Digg)(外部)
流出したシステムプロンプトが約12万字に及び、MythosクラスがOpusの上位に位置づけられている点を解説。称賛と批判の両論を拾っている。

Claude Fable Five is Anthropic’s Most Controversial Model Yet(The Neuron)(外部)
Fable 5を単なるモデルでなく「能力システム」と捉える視点を提示。プリニーの主張は割り引くべきとしつつ、流出プロンプトの有用性も指摘している。

【関連記事】

Claude Fable 5 公開、Anthropic 最強モデルが安全装置付きで一般解禁(内部)
本記事の前編。Fable 5 公開時のフォールバック設計や価格、規制の動きを一次情報から解説している。

リミッター付きの最強モデル─Claude Fable 5、セキュリティ専門家が『仕事に使えない』と訴える理由(内部)
安全装置が防御の専門家まで締め出す「ディフェンダーのジレンマ」を、研究者側の視点から掘り下げた姉妹記事。

【編集部後記】

新しいモデルが出るたびに、私はいつも少しだけ落ち着かない気持ちになります。「すごい」と「大丈夫かな」が、同じ瞬間に胸の中で混ざるからです。今回のFable 5をめぐる一件は、まさにその両方を映し出していました。

みなさんは、AIに「賢さ」と「安全」のどちらをより求めるでしょうか。きっと、その答えは使う場面によって揺れ動くはずです。仕事を任せたいときと、子どもに触れさせたいときとでは、望む「安全のかたち」も違ってくるでしょう。

正解のない問いだからこそ、いろいろな声が交わる場所があるといいなと思っています。もしよかったら、みなさんが感じた「ちょうどいい距離感」を、いつか聞かせてください。私にとっても、それが次の一歩を考えるための、大切な道しるべになります。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。