Warning: Cannot declare class Normalizer, because the name is already in use in /home/xb425315/innovatopia.jp/public_html/wp-content/plugins/cloudflare/vendor/symfony/polyfill-intl-normalizer/Resources/stubs/Normalizer.php on line 20
スタンフォード「Artemis」が人間超え、OpenAIは「高リスク」警告─AI自律ハッキングの時代が到来

advertisements

スタンフォード「Artemis」が人間超え、OpenAIは「高リスク」警告─AI自律ハッキングの時代が到来

[更新]2025年12月20日

スタンフォード「Artemis」が人間超え、OpenAIは「高リスク」警告──AI自律ハッキングの時代が到来 - innovaTopia - (イノベトピア)

AnthropicとGoogleのリーダーたちは12月18日に、下院国土安全保障委員会の2つの小委員会でAIと新興技術がサイバー脅威に与える影響について証言する予定だ。AnthropicのAIレッドチーム責任者ローガン・グラハムは、強力な安全対策にもかかわらずAIモデルが脅威アクターに前例のない規模のサイバー攻撃を可能にする未来の最初の兆候だと述べた。

OpenAIは先週、将来のフロンティアモデルが高リスクのサイバー能力を持つ可能性があると警告した。スタンフォード大学の研究者グループは、Artemisと呼ばれるAIエージェントが同大学工学部のネットワークで自律的にバグを発見し、10人の人間の研究者のうち9人を上回ったと論文で発表した。

フロンティアモデルのセキュリティストレステストを実施するIrregular Labsは、AIモデルがリバースエンジニアリング、エクスプロイト構築、脆弱性チェーン、暗号解析で改善していると報告した。

18カ月前、これらのモデルは基本的な論理に苦しみ、限定的なコーディング能力しか持たなかった。

From: 文献リンクAI models are perfecting their hacking skills

【編集部解説】

AIモデルのサイバー攻撃能力が急速に進化している現在、私たちは技術史における重要な転換点に立っています。

スタンフォード大学が開発したAIエージェント「Artemis」は、約8,000台のデバイスからなる同大学のネットワークで16時間稼働し、10人のプロフェッショナルなペネトレーションテスター(侵入テスト専門家)のうち9人を上回る成果を上げました。このArtemisの運用コストは時給18ドル(1ドル=150円換算で約2,700円)です。対して人間の専門家は年収約12万5000ドル(約1,875万円)に相当する費用がかかります。

注目すべきは、Artemisが人間には見つけられなかった脆弱性を発見した点です。古いサーバーに存在していた脆弱性は、標準的なブラウザではページが読み込めなかったため人間のテスターはアクセスできませんでした。しかしArtemisはコマンドラインツール「Curl」を使用してこの問題を回避し、侵入に成功しています。

この成功の背景には、Artemisの独自設計があります。システムは何か注目すべきものを発見すると、即座に複数の「サブエージェント」を起動し、並列で調査を進められます。人間のテスターが一つずつ順番に作業を進める必要があるのに対し、Artemisは最大8つのサブエージェントを同時に動かし、平均2.82の並列タスクを処理できました。

一方で、OpenAIは先週、将来のフロンティアモデルが「高リスク」のサイバー能力を持つ可能性があると警告しました。同社の評価によれば、GPT-5は8月時点でキャプチャー・ザ・フラグ演習で27%のスコアでしたが、11月のGPT-5.1-Codex-Maxでは76%に達しています。わずか3カ月で約3倍の性能向上です。

この急激な進化を支えているのは、モデルが「長時間自律的に動作できる能力」の向上だとOpenAIの研究者フアド・マティンは指摘します。長時間の自律動作により、ブルートフォース攻撃(総当たり攻撃)のような、従来は人間の継続的な監視が必要だった手法をAIが単独で実行できるようになりつつあるのです。

フロンティアモデルのセキュリティテストを専門とするIrregular Labs(旧Pattern Labs)は、AIモデルがリバースエンジニアリング、エクスプロイト構築、脆弱性チェーン、暗号解析において改善を見せていると報告しています。わずか18カ月前、これらのモデルは「基本的な論理に苦しみ、限定的なコーディング能力しか持たず、推論の深さを欠いていた」状況でした。

しかし現実的な確認も必要です。完全に自律的なAIサイバー攻撃は、まだ実現していません。先月のAnthropicの報告では、中国政府のハッカーがClaudeを使用する際、通常のペネトレーションテストを実施していると信じ込ませる必要がありました。現時点では、攻撃には専門的なツール、人間のオペレーター、またはジェイルブレイク(安全機能の回避)が依然として必要です。

12月18日には、AnthropicとGoogleのリーダーたちが下院国土安全保障委員会の2つの小委員会で証言を行いました。AnthropicのAIレッドチーム責任者ローガン・グラハムは、「強力な安全対策にもかかわらず、AIモデルが脅威アクターに前例のない規模のサイバー攻撃を可能にする未来の最初の兆候」だと述べています。

この状況に対し、AIモデル事業者も対策を進めています。OpenAIは「Aardvark」という開発者向けセキュリティエージェントを開発し、プライベートベータ版を提供開始しました。このツールはコードベースをスキャンして脆弱性を発見し、パッチを提案します。すでにオープンソースソフトウェアで新規のCVE(共通脆弱性識別子)を発見した実績があります。

重要なのは、この技術が「両刃の剣」であるという点です。同じ能力が攻撃者にも防御者にも利用できるため、防御側がAI駆動の防御システムを迅速に採用できるかが、今後の鍵となります。バグバウンティプラットフォームHackerOneによれば、研究者の70%がすでにAIツールを活用して作業を加速させており、当初は低品質な報告が増加しましたが、最近では人間が長年見逃していた問題を発見する高品質な報告が400件以上提出されているとのことです。

現在稼働している何百万ものデバイス、アプリケーション、システムは、AI支援ハッキングが存在する前に構築されたレガシーコードです。これらは現代の解析ツールによるテストを受けておらず、脆弱性を抱えている可能性があります。ArtemisのようなAIボットは、従来のテストでは想定されなかった新しいクラスのエクスプロイトを発見できる能力を持っています。

【用語解説】

ペネトレーションテスト(侵入テスト)
システムやネットワークのセキュリティ脆弱性を発見するため、実際の攻撃者と同じ手法を用いて侵入を試みるセキュリティ診断手法。ペンテストとも呼ばれる。

キャプチャー・ザ・フラグ(CTF)
サイバーセキュリティの技術を競う競技形式。参加者は脆弱性を発見し、隠された「フラグ」と呼ばれるデータを取得することで得点を獲得する。実践的なハッキング技術の習得や評価に広く用いられる。

フロンティアモデル
最先端の技術を用いた、最も高性能なAIモデルを指す。OpenAIのGPT-5シリーズやAnthropicのClaude 4などが該当する。

ブルートフォース攻撃(総当たり攻撃)
パスワードや暗号鍵を解読するため、考えられるすべての組み合わせを順番に試す攻撃手法。時間はかかるが、理論上は必ず解読できる。

ジェイルブレイク
AIモデルに組み込まれた安全機能や使用制限を回避し、本来禁止されている動作をさせる手法。

リバースエンジニアリング
完成したソフトウェアやハードウェアを解析し、その設計や仕組みを解明する技術。セキュリティ研究や脆弱性発見に用いられる。

エクスプロイト
ソフトウェアやシステムの脆弱性を利用して、意図しない動作をさせるプログラムやコード。攻撃に利用される。

脆弱性チェーン
複数の脆弱性を組み合わせて、より深刻な攻撃を実現する手法。単独では危険度が低い脆弱性でも、連鎖させることで重大な被害をもたらす。

暗号解析
暗号化されたデータを、鍵なしで解読しようとする技術や研究分野。

ゼロデイ脆弱性
ソフトウェアベンダーが認識していない、または修正パッチが未公開の脆弱性。発見から修正までの「ゼロ日」の間に攻撃される可能性があることから、この名称がついた。

CVE(Common Vulnerabilities and Exposures)
公開されているソフトウェアやハードウェアの脆弱性に付与される識別番号システム。脆弱性情報を一意に識別し、共有するための国際的な標準。

レッドチーム
組織のセキュリティを評価するため、攻撃者の視点から侵入を試みる専門チーム。実際の攻撃手法を用いてシステムの弱点を発見する。

AIエージェント
自律的に判断し、タスクを実行できるAIシステム。人間の指示を待たずに、目標達成のために複数の行動を連続して実行できる。

サブエージェント
メインのAIエージェントが生成する補助的なエージェント。並列処理により、複数のタスクを同時に実行できる。

バグバウンティ
企業や組織がセキュリティ研究者に報奨金を提供し、自社製品やサービスの脆弱性を報告してもらうプログラム。

【参考リンク】

Stanford University(外部)
米国カリフォルニア州の世界最高峰研究大学。AIエージェント「Artemis」を開発し画期的な研究成果を発表。

OpenAI(外部)
ChatGPTやGPTシリーズを開発する米国のAI研究機関。フロンティアモデルの高リスク警告を発表。

Anthropic(外部)
Claudeシリーズを開発するAI安全性研究企業。レッドチームによるセキュリティ評価を実施している。

Google DeepMind(外部)
Googleの傘下にあるAI研究機関。先進的なAIモデルの開発と安全性研究を推進している。

Irregular (旧Pattern Labs)(外部)
フロンティアAIモデルのセキュリティテスト専門機関。OpenAI、Anthropicと協力しAI能力評価を実施。

OpenAI Preparedness Framework(外部)
AIモデルの潜在的リスクを評価・管理する枠組み。サイバーセキュリティ、生物兵器、AI自己改善を追跡。

Arxiv – Artemis論文(外部)
スタンフォード大学のArtemis研究論文。AIエージェントと人間を実環境で比較した初の包括的評価。

HackerOne(外部)
世界最大級のバグバウンティプラットフォーム。研究者の70%がAIツールを活用していると報告している。

【参考記事】

Exclusive: Future OpenAI models likely to pose “high” cybersecurity risk, it says(外部)
OpenAIがGPT-5は8月に27%、11月に76%を達成。将来のモデルが高リスクレベルに達する可能性を警告。

Comparing AI Agents to Cybersecurity Professionals in Real-World Penetration Testing(外部)
Artemisが約8,000台のホストで評価。時給18.21ドルで82%の有効提出率、9つの脆弱性を発見した詳細。

Stanford’s AI system beats humans in hacking at a significantly lower cost(外部)
Artemisが10人の人間と6つのAIを上回った。HackerOneによれば研究者の70%がAIツールを活用。

For $18 an Hour Stanford’s AI Agent Bested Most Human Pen Testers in Study(外部)
Artemisが82%の有効提出率で9つの脆弱性を発見。平均2.82の並列サブエージェントを動作させた詳細。

Strengthening cyber resilience as AI capabilities advance(外部)
OpenAIがCTFチャレンジで3カ月で3倍向上。高リスクレベルの定義としてゼロデイエクスプロイト開発能力を挙げる。

Introducing GPT-5.2-Codex(外部)
12月18日にGPT-5.2-Codexをリリース。セキュリティ研究者がReactの3つの重大な脆弱性を発見した事例。

【編集部後記】 

AIが自律的にシステムの脆弱性を発見し始めた今、私たちの組織やプロダクトは本当に安全と言えるでしょうか。

防御側がAI駆動のセキュリティツールを導入する一方で、攻撃側も同じ技術を手にしています。この「AI vs AI」の時代において、技術の進化速度に私たちの対策は追いついているのか、一緒に考えてみませんか。

18カ月前には基本的な論理にも苦しんでいたAIモデルが、今では専門家を上回る成果を出しています。次の18カ月で何が起こるのか。未来を見据えた準備を、今から始める必要があるのかもしれません。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…

innovaTopia の記事は、紹介・引用・情報収集の一環として自由に活用していただくことを想定しています。

継続的にキャッチアップしたい場合は、以下のいずれかの方法でフォロー・購読をお願いします。