Anthropicがバグバウンティを一般公開、HackerOne上で誰でもAIセキュリティ脆弱性を報告可能に

「セキュリティの目」を、世界中のハッカーに開く——。Anthropicが2026年5月8日、自社のセキュリティ・バグバウンティプログラムをHackerOne上で一般公開しました。Claudeを支える基盤の安全性を、一企業の手元から世界の研究者と共有する選択は、AIセキュリティ戦略の静かな転換点となるかもしれません。


Anthropicは2026年5月8日、自社のセキュリティ・バグバウンティプログラムをHackerOne上で一般公開したと公式Xアカウント(@AnthropicAI)で発表した。同プログラムはこれまで、セキュリティ研究者コミュニティ内に限定する形で非公開運用されてきた。研究者による発見はAnthropic製品の堅牢性強化に寄与してきた。

今回の一般公開により、誰もがAnthropicに脆弱性を報告し、報奨金を受け取ることが可能となる。詳細はHackerOne上の同社プログラムページに掲載されている。投稿は午前4時10分に発信され、表示数は32.5万件である。

From: 文献リンクAnthropic on X: “Our security bug bounty program is now public on HackerOne.”

【編集部解説】

今回の発表のポイントは、Anthropicが従来「招待制」で運営してきたセキュリティ・バグバウンティプログラムを、誰でも参加可能な「一般公開型」へと切り替えた点にあります。

まず押さえておきたいのは、Anthropicには別に「モデルセーフティ・バグバウンティプログラム」が存在するという事実です。こちらはユニバーサル・ジェイルブレイク(AIの安全装置を広範に回避する手法)など、AI特有の脆弱性を対象としており、現在も招待制で運営されています。今回パブリック化されたのは、製品・サービス全般のセキュリティ脆弱性を対象とするプログラムであり、両者は目的も対象範囲も異なります。タイトルだけを追うと混同しがちですので、このすみ分けを押さえておくと、Anthropicのセキュリティ戦略の全体像が見えやすくなります。

そもそもバグバウンティとは、企業が外部のセキュリティ研究者(いわゆるエシカルハッカー)に自社システムの脆弱性発見を依頼し、有効な報告に対して報奨金を支払う仕組みのことを指します。今回のパートナーであるHackerOneは世界最大級のバグバウンティ運営プラットフォームで、Google、Microsoft、米国防総省などもプログラムをホストしてきた実績があります。

なぜ今このタイミングで公開化に踏み切ったのか。背景には、Claudeシリーズが企業の業務基盤に深く組み込まれつつある現実があると見ています。Claude Codeをはじめ、MCP(Model Context Protocol)経由の各種連携、ブラウザやスプレッドシートとの統合など、AnthropicのAIが触れるデータ範囲はこの1年で大きく広がりました。攻撃対象領域(アタックサーフェス)が拡大すれば、社内チームと少数の招待研究者だけで全てを潰しきるのは難しくなります。世界中のホワイトハッカーの目を借りる方が、はるかに合理的という判断でしょう。

規制面の文脈も見逃せません。米ホワイトハウスがフロンティアAI企業に対して求めた自主的な安全コミットメントには、第三者による脆弱性開示の促進が含まれていました。Anthropicは当初からこのコミットメントに名を連ねた企業の一社であり、今回の公開化はその方針を一歩前へ進めた動きとも読み取れます。

一方で、パブリック化には固有の難しさも伴います。報告の「ノイズ」(誤検知や重複報告)が急増し、運営側のトリアージ負荷が高まる点、そして悪意ある研究者が報告前に脆弱性を悪用するリスクをどう抑えるか、運用面の課題は残ります。この点についてはHackerOneの責任ある開示プロセスが一定の歯止めにはなりますが、リスクをゼロにはできません。

長期的に見れば、AIセキュリティの知見が「閉じた招待制」から「開かれたコミュニティ知」へと移っていく流れが、これを契機に加速していくと考えられます。日本のセキュリティ研究者にとっても、世界水準のAIインフラに対して合法的に腕試しができる場がひとつ増えたことになります。「未来を触りたい」と願う読者の方々の中には、この門戸が開かれたことを純粋なチャンスとして受け止める向きもあるはずです。

【用語解説】

バグバウンティ(Bug Bounty)
企業が外部のセキュリティ研究者に自社システムの脆弱性発見を依頼し、有効な報告に対して報奨金を支払う制度のこと。1990年代にNetscapeが先駆けて導入し、現在では多くのテクノロジー企業が採用している。

HackerOne
世界最大級のバグバウンティ運営プラットフォーム。企業が脆弱性報告プログラムをホストし、世界中のホワイトハッカーと安全につなぐ仲介役を担う。

ユニバーサル・ジェイルブレイク
AIモデルの安全機構を、特定の話題に依存せず広範囲にわたって回避できてしまう汎用的な攻撃手法のこと。CBRN(化学・生物・放射性・核)分野などの高リスク領域で警戒されている。

エシカルハッカー(ホワイトハッカー)
合法かつ倫理的に脆弱性を発見し、企業に報告する技術者のこと。攻撃者と同じ技術を持ちながら、防御側に貢献する立場を取る。

MCP(Model Context Protocol)
Anthropicが2024年に発表した、AIモデルと外部ツール・データソースを安全に接続するためのオープン標準プロトコル。AIエージェントが扱う情報範囲を広げる基盤技術として注目されている。

アタックサーフェス
攻撃者が侵入経路として狙えるシステム上の入口の総称。機能や連携先が増えるほど拡大する性質がある。

責任ある開示(Responsible Disclosure)
発見された脆弱性を、悪用される前に該当企業へ非公開で報告し、修正後に公開するという業界慣行のこと。バグバウンティ運営の根幹を成す原則である。

トリアージ
医療現場で用いられる優先順位付けの概念から派生した用語で、報告された脆弱性の深刻度・再現性・有効性を運営側が査定するプロセスを指す。

米ホワイトハウス自主的AI安全コミットメント
2023年7月に米バイデン政権がAnthropic、Google、Microsoft、OpenAI、Metaなどフロンティアモデル開発企業から取り付けた自主的な約束事項。第三者による脆弱性報告の受け皿整備が含まれている。

【参考リンク】

Anthropic 公式サイト(外部)
Claudeなどの大規模言語モデルを開発する米AI企業の公式サイト。研究成果や安全性ポリシー、製品情報を発信している。

Anthropic Bug Bounty Program(HackerOne)(外部)
今回パブリック化されたAnthropicのセキュリティ・バグバウンティプログラムの公式受付ページ。

HackerOne 公式サイト(外部)
脆弱性報告とバグバウンティ運営を手がける米企業の公式サイト。多数の組織が利用している。

Claude(Anthropic AIアシスタント)(外部)
Anthropicが提供する対話型AIアシスタントの公式サービス。

Model Context Protocol 公式サイト(外部)
AnthropicがオープンソースとしてリリースしたAIエージェント向け接続プロトコルの仕様公開ページ。

Anthropic — Testing our safety defenses with a new bug bounty program(外部)
Anthropic公式ブログ。モデルセーフティ・バグバウンティの最新運営方針が記載されている。

【参考記事】

Anthropic Launches public bug bounty on HackerOne(blockchain.news)(外部)
2026年5月7日付の解説記事。報奨金は重大度に応じて変動し、低重大度で数百ドル、重大な脆弱性で1万ドル以上の支払いが想定されると伝えている。

Anthropic starts testing new AI safety bug bounty program(Axios)(外部)
モデルセーフティ・バグバウンティでは最大1万5000ドル(約225万円・1ドル150円換算)の報奨が用意されたと2024年8月時点で報じている。

Anthropic Expands Their Model Safety Bug Bounty Program(HackerOne Blog)(外部)
HackerOne公式ブログによる、Anthropicのモデルセーフティ・バグバウンティ拡張時の解説記事。

Anthropic Bug Bounty Program ページ(HackerOne)(外部)
HackerOne上のAnthropicセキュリティ・バグバウンティの正規受付ページ。プログラム範囲やルールが定義されている。

【関連記事】

Dirty Cow、Dirty Pipe、そして Copy Fail──Linux LPE「三世代」の比較が照らす、AIが脆弱性を発見する時代の輪郭(内部)
HackerOne運営のIBBプログラム一時停止やcURLのバウンティ離脱など、業界変動を整理した直近記事。本件の「公開化」決断の背景理解に最適。

「防御側優位」は成り立つか──AnthropicのProject GlasswingとAIサイバー能力の構造(内部)
Anthropicがセキュリティコミュニティへどう開かれていくのか、その設計思想を扱った姉妹記事。本件と対をなす。

Antigravity(Google)に重大脆弱性—最高セキュリティ設定を突破するプロンプトインジェクション攻撃とは(内部)
Google AI VRPによる脆弱性報告事例。AI企業のバグバウンティ運営として、Anthropicと比較できる他社事例。

【編集部後記】

AIが暮らしや仕事に深く入り込むほど、その「裏側の安全性」を誰が、どう支えているのかは見えづらくなります。今回のように、世界中の研究者へ門戸を開く動きは、その透明性を一段上げる取り組みのひとつではないでしょうか。

みなさんはAIサービスを選ぶとき、「どこまでセキュリティに本気か」を判断材料にされますか。あるいは、開かれたコミュニティで腕を試してみたい、という気持ちが湧いた方もいらっしゃるかもしれません。AIと社会の関係を、一緒にじっくり眺めていけたら嬉しく思います。

Googleで優先するソースとして追加するボタン
投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。