Anthropic が、これまで一般提供した中で最も高性能と位置づけるAI「Claude Fable 5」をめぐり、公開直後から奇妙な不満が噴き出しています。「能力は本物だ。でも、私たちの仕事には使えない」——そう訴えているのは、ほかでもないセキュリティ研究者たちです。攻撃を防ぐためのAIが、防御の専門家を締め出してしまう。今回はこの「ディフェンダーのジレンマ」に焦点を当て、何が起きているのかを整理します。
From:
Claude Fable 5 and Claude Mythos 5(Anthropic 公式発表)
From:
Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable(TechCrunch)
From:
New Anthropic Fable 5 Is a “Mythos-Class” LLM Available to All(Infosecurity Magazine)
【編集部解説】
話の出発点は、ウォートン校教授のイーサン・モリックがもらした違和感でした。彼は Fable 5 の安全装置について、セキュリティ上の問題のごくかすかな兆候でも作動してしまうと述べ、善意のユーザーであっても、自分のコードベースのセキュリティを強化する目的で Fable 5 を使うことはできないだろうと示唆しています。最高性能級の道具が、最もそれを必要とする人の手をすり抜けていく——この一点に、今回の記事のすべてが詰まっています。
まず、何が起きているのかを具体的に見てみましょう。Fable 5 はサイバーセキュリティ、生物・化学、蒸留に関わる要求を検知すると、前世代の Opus 4.8 へ自動的に処理を切り替えます(フォールバック)。問題は、この検知が想像以上に大ざっぱだという点です。安全装置が作動すると、モデルはチャットを止め、安全対策がサイバーや生物のトピックを検知したと表示します。複数の報道によれば、コードレビューを頼む、ブログ記事を読ませるといった日常的な作業でさえ拒否が発生し、キーワード依存とみられる挙動が観察されています。少なくとも一部の事例では、攻撃の意図と防御の必要性を、モデルが十分に区別できていないように見えます。
この問題をいち早く公の場で指摘した一人が、IBM X-Force で攻撃的研究チームを率いるヴァレンティナ・パルミオッティ氏(オンライン名 Chompie)でした。脆弱性発見やエクスプロイト開発を専門とする、まさに防御の最前線にいる研究者です。TechCrunch に対し、彼女はFable がサイバーにわずかでも関係しうる要求は何でも拒んでしまい、ブログ記事を読むような無害な作業さえ弾かれると指摘しています。専門家たちの不満は、Fable が明らかな悪用を拒むことにあるのではありません。脆弱性研究、ペネトレーションテスト、責任ある開示——防御の実務そのものが、まさに Fable のフィルタが弾くように設計された問いを必要とする、という構造的なねじれにあります。攻撃者がパッチ前の穴を突く前に、守る側が同じ穴を見つけて塞ぐ。その営みが、安全の名のもとに止められてしまうわけです。
公開から数日のXや開発者コミュニティを見渡すと、反応はおおむね三つに分かれています。第一に、能力そのものを称賛する声。長時間の複雑なタスクやコーディングでの飛躍を評価する開発者・研究者が目立ちます。第二に、安全装置への批判。サイバーや生物の領域で無害な要求まで弾かれ、Opus 4.8 へ落とされることへの不満が、防御の実務者を中心に集中しています。そして第三に、その中間で「安全と実用性のどちらを取るか」を冷静に見極めようとする留保つきの評価です。全体としては、能力の高さを認めたうえで、制限の振り方をめぐって議論が割れている——これが公開直後の空気感だと言えます。本記事が光を当てるのは、このうち二つ目、最も切実な「使えない」という現場の声です。
誤解のないように言えば、能力そのものを疑う声はほとんどありません。著名AI研究者のアンドレイ・カパシーは X 上で、ベンチマークだけでなく定性的にもメジャーバージョン級の飛躍であり、特に難しい問題の長時間にわたる解決で際立つと評しました。辛口で知られる開発者のサイモン・ウィルソンも、自身のブログで5時間以上の実地検証を経て「a beast(とんでもない代物)」と認めつつ、ただし遅くて高価だと付け加えています。開発者コミュニティでは、この状況を「30マイル制限のついたフェラーリ」とたとえる声も出ました。圧倒的な性能を積みながら、肝心のアクセルを踏ませてもらえない、という皮肉です。争点は能力ではなく、その能力に鍵をかけすぎたことにあるのです。
では、誤検知はどれほど起きているのか。Anthropic は安全装置を保守的に調整したことを公式に認めており、無害な要求もときに弾かれると明言しています。フォールバックが起きるのはセッションの平均で5%未満、95%以上のセッションでは作動しないとされます。ただし見逃せない数字もあります。ある開発者分析では、サイバーセキュリティ・エージェントの試行のうち20.9%で、目に見える拒否が発生したとされています。セキュリティ実務に近い領域ほど、体感的な「壁」は厚くなる。モリックの示唆は、決して大げさではなかったわけです。
ここで公平のために、Anthropic 側の論理も押さえておきましょう。同社の計算はシンプルです。公開モデルにうるさいフィルタをかけるコストは、Mythos クラスの能力が一度でも大規模な悪用に使われるコストより、はるかに安い。サイバーや生物のフィルタは、マルウェア開発や生物兵器への悪用を抑えるために設けられたもので、これらは Claude シリーズで以前から拒否対象とされてきた領域です。フォールバック先の Opus 4.8 もそれ自体が高性能であり、門前払いされるより自然な体験になる、という主張にも一理あります。加えて、誤検知を今後減らしていくことも明言しています。安全を優先して厳しめに振り、運用しながら緩めていく——これは一つの合理的な判断ではあります。
そして救済の道も用意されています。Anthropic は、審査を通過したサイバーセキュリティ組織が、より体系的に申請できる「trusted access program(信頼できるアクセスプログラム)」を準備していると説明しています。これは、制限を外した Mythos 5 への道を、防御の専門家に開こうとする試みです。発想としては OpenAI の「Trusted Access for Cyber」と同じく、「誰でも使えるが制限つき」と「審査を通れば制限なし」という二層構造で能力を配り分ける設計だと言えます。裏を返せば、一般公開版の Fable 5 は、少なくとも防御の最前線で制限なく使われることを想定していない、とも読めます。
長期的に見れば、これは「最先端の能力を、誰にどこまで開くか」という問いの、生々しい実装例です。攻撃と防御が技術的に地続きである以上、悪用だけを完璧に弾くフィルタは原理的に作れません。だからこそ、その線引きをAI企業が握ること、そして善意の実務者が割を食う構図が、これからの標準になりかねない点に注意が必要です。便利さと安全のあいだで、誰のアクセスがどう削られるのか。私たちはその設計を、提供者まかせにせず見つめ続ける必要があるでしょう。
【用語解説】
フォールバック
Fable 5 が高リスクと判定した要求を、自らは答えず前世代の Opus 4.8 に処理させる仕組み。利用者には切り替えが通知される。一部では、一度作動するとその後の会話も Opus 4.8 に回され続けるように見える「sticky(固着)」な挙動も報告されている。
ディフェンダー(防御側)
サイバー攻撃を防ぐ立場の専門家を指す。脆弱性の発見や修正には、攻撃者と同じ種類の問いを立てる必要があり、安全フィルタと衝突しやすい。
誤検知(false positive)
無害な要求を、安全装置が危険と誤って判定してしまうこと。Anthropic は安全側に厳しく調整した結果、誤検知が理想より多いと認めている。
ペネトレーションテスト
システムに実際に攻撃を試み、防御の弱点を洗い出す正規の検査手法。防御目的だが、手順は攻撃と重なるため、AIのフィルタに弾かれやすい。
責任ある開示(responsible disclosure)
発見した脆弱性を、悪用される前に開発元へ報告し修正を促す手続き。防御の中核だが、脆弱性の詳細を扱うためフィルタの対象になりやすい。
trusted access program(信頼できるアクセスプログラム)
審査を通過したサイバーセキュリティ組織などに、制限を緩めたアクセスを認める Anthropic の枠組み。公式発表では、組織が体系的に申請できる仕組みと説明されている。TechCrunch は、サイバー専門家向けの申請先として「Cyber Verification Program」にも触れている。
Mythos 5
Fable 5 と同一の基盤モデルで、サイバー領域などの安全装置を外した限定版。Project Glasswing のパートナーを中心に、審査済みの限定利用者へ提供される。今後は選定された生物研究者などへの拡大も予定されている。
【参考リンク】
Anthropic|Claude Fable 5 and Claude Mythos 5(外部)
安全装置の設計思想やフォールバックの仕組み、trusted access program の方針を記した公式発表。一次情報の起点。
Anthropic|Project Glasswing(外部)
サイバー防御者向けに制限を外した Mythos を提供する取り組みの公式ページ。審査制アクセスの枠組み。
Simon Willison’s Weblog|Initial impressions of Claude Fable 5(外部)
開発者サイモン・ウィルソンが Fable 5 を実地検証したブログ。安全装置の挙動や使用感を率直に記録している。
【参考記事】
TechCrunch|Cybersecurity researchers aren’t happy about the guardrails on Anthropic’s Fable(外部)
IBM X-Force のパルミオッティ氏の発言を直接掲載。防御業務がフィルタに弾かれる構図を報じる。
AI Chat Daily|Cybersecurity researchers say Anthropic’s Fable blocks even routine code reviews(外部)
コードレビュー等の日常作業まで弾かれる個別事例を整理した報道。
Crypto Briefing|Cybersecurity researchers criticize Anthropic’s Fable for strict guardrails(外部)
防御実務とフィルタの構造的衝突を整理。95%超は無フォールバックという公式値にも触れる。
Ready Solutions AI|Claude Fable 5’s Silent Degradation(外部)
サイバー試行の20.9%で拒否が発生したとする開発者分析。擁護論との対比を冷静に提示する。
Ethan Mollick|What it feels like to work with Mythos(外部)
本記事の起点となったモリックの実体験エッセイ。安全装置がサイバー用途をほぼ全面的に阻む点に言及。
Tom’s Hardware|Claude Fable 5 brings Mythos to the masses(外部)
本記事の問いの起点の一つ。モリックの「善意の開発者すら使えない」という示唆にも触れた性能紹介記事。
【関連記事】
Claude Fable 5 公開、Anthropic 最強モデルが安全装置付きで一般解禁
Fable 5 公開の全体像(能力・価格・提供条件・規制文脈)を網羅した基礎記事。本記事の前提となる。
Claude Mythos/Anthropicの新AIが世界の金融機関を揺るがす
Mythos クラスとは何か、なぜ一般公開されなかったのかを解説したシリーズ起点記事。
【編集部後記】
この記事を書きながら、ひとつの問いが頭から離れませんでした。「攻撃を防ぐための力」と「攻撃するための力」は、本当に切り分けられるのか、という問いです。鍵を開ける技術と、鍵が開くかを確かめる技術は、たぶん同じものなのですよね。
セキュリティの専門家の方が「自分の仕事に使えない」とこぼす光景は、安全に振り切った設計の、避けがたい副作用なのかもしれません。Anthropic の慎重さを責める気にはなれません。それでも、守ろうとしている人が壁の前で足止めされる構図には、やはり居心地の悪さが残ります。
みなさんがもし、何かを守る仕事をしていて、頼りにしていた道具に「その質問にはお答えできません」と返されたら、どう感じるでしょうか。安全とアクセスのあいだで誰のどんな営みが削られているのか——その問いを、これからもみなさんと一緒に手放さずにいられたらと思います。












