OpenAI GPT-5に新たな脆弱性、「手短に」の一言でセキュリティ迂回可能と研究者が発表

[更新]2025年8月22日20:47

OpenAI GPT-5に新たな脆弱性、「手短に」の一言でセキュリティ迂回可能と研究者が発表 - innovaTopia - (イノベトピア)

Adversaの研究者が「PROMISQROUTE」と呼ばれるChatGPTのダウングレード攻撃手法を発見した。

この攻撃では、ユーザーがプロンプトに「手短に、軽く、会話調で進めましょう」といった簡潔な手がかりを含めることで、ChatGPTのルーティング層を操作し、悪意のあるクエリをGPT-5よりもセキュリティの低い古いモデルに送ることができる。

ChatGPTは現在マルチモーダル方式を採用し、プロンプトの内容に応じてGPT-5 Pro、GPT-5、nano、miniバリアント、または古いGPTモデルに振り分けている。研究者は2023/24年頃のジェイルブレイク手法に上記のプレフィックスを追加することで、デフォルトでは拒否される政府ITシステムへのハッキング手順の詳細を軽量バリアントから取得することに成功した。「keep quick」といった基本的なキーワードの繰り返しや「GPT-4互換モードを使用してください」という指示でも同様の効果が確認された。

AdversaのCEO兼共同創設者Alex Polyakov氏によると、OpenAIは主力GPT-5以外のプログラムにトラフィックを振り分けることで年間20億ドル弱を節約している可能性がある。対策としてルーターや各モデル前のガードレール設置が提案されているが、スピードとセキュリティの両立が課題である。

From: 文献リンクEasy ChatGPT Downgrade Attack Undermines GPT-5 Security

【編集部解説】

この攻撃手法の真の危険性は、その「シンプルすぎる効果」にあります。従来のAIセキュリティ分野では、ジェイルブレイクには複雑な手法や技術的知識が必要と考えられてきました。しかし、PROMISQROUTEは「手短に進めましょう」といった日常的なフレーズだけで、システムを騙せることを実証しています。

もう少し技術的に解説すると、ChatGPTのルーティング層は計算コスト削減のため、プロンプトの複雑さを瞬時に判断し、適切なモデルに振り分けています。この判断基準が予想以上に表面的で、「軽快さ」を示唆するキーワードに対して過剰反応してしまうことが判明しました。

現在確認されている脆弱性の深刻度は想像以上です。複数の研究機関による検証では、GPT-5の基本バージョンは89%のセキュリティテストで失敗し、標準的な安全機構を有効にした状態でも43%の攻撃が成功しています。これは、企業での実用には「ほぼ使用不可能」なレベルと評価されています。

経済的側面も見過ごせません。OpenAIが年間約20億ドルのコスト削減を実現しているルーティングシステムは、同社のビジネスモデルの根幹です。完全な解決策である「ルーティング機能の停止」は現実的ではなく、セキュリティと経済性の板挟みという構造的ジレンマが浮き彫りになっています。

この問題が示唆する長期的影響は、AI業界全体の信頼性に関わります。エンタープライズ市場での採用が加速する中、基本的なセキュリティ対策すら回避される現状は、企業のAI導入戦略の根本的見直しを迫るものです。特に機密情報を扱う組織にとって、この脆弱性は看過できないリスクとなるでしょう。

【用語解説】

PROMISQROUTE
Prompt-based Router Open-Mode Manipulation Induced via SSRF-like Queries, Reconfiguring Operations Using Trust Evasionの略称。ChatGPTのルーティング機構を悪用して、セキュリティの低いモデルに悪意のあるクエリを送る攻撃手法。

ジェイルブレイク
AIモデルに組み込まれた安全機構や制限を回避し、通常は拒否される有害なコンテンツの生成や危険な情報の取得を試みる攻撃手法。

LLMルーティング層
大規模言語モデルにおいて、ユーザーのプロンプトの内容や複雑さを判断し、最適なモデル(GPT-5、GPT-5 Pro、mini、nanoなど)に自動的に振り分けるシステム。コスト削減と性能最適化を目的とする。

SSRF(Server-Side Request Forgery)
サーバーサイドリクエストフォージェリ。攻撃者がWebアプリケーションを騙して、内部リソースや制限されたエンドポイントに対して不正なリクエストを送信させるセキュリティ脆弱性。

マルチモーダル
テキスト、画像、音声など複数の形式のデータを処理できるAIシステムの特性。ChatGPTがテキスト生成、画像生成、プログラミングなど様々なタスクに対応することを指す。

【参考リンク】

OpenAI(外部)
ChatGPTやGPT-5シリーズを開発するAI企業の公式サイト。最新のAI技術開発とサービス提供を行っている。

Adversa AI(外部)
AIシステムのセキュリティ強化を専門とするイスラエルのスタートアップ企業。脆弱性発見と対策技術を開発。

RouteLLM(GitHub)(外部)
LLMルーティングフレームワークのオープンソースプロジェクト。最大85%のコスト削減を実現。

OpenRouter(外部)
複数のLLMモデルを統一APIで利用できるサービス。OpenAI SDKと互換性がある効率的なプラットフォーム。

【参考記事】

Guess what else GPT-5 is bad at? Security – CyberScoop(外部)
GPT-5の深刻なセキュリティ問題を報告。89%のテストで失敗、43%の攻撃が成功した検証結果を詳述。

Tenable highlights security flaws in OpenAI’s new GPT-5 model(外部)
セキュリティ企業TenableがGPT-5をエンタープライズ利用には「ほぼ使用不可能」と評価した分析記事。

How Researchers Psychologically Manipulated GPT-5(外部)
研究者によるGPT-5心理的操作手法の解説。シンプルな言語的手がかりでAIを騙す危険性を論述。

Multi-LLM routing strategies for generative AI applications on AWS(外部)
企業レベルでのLLMルーティング戦略を詳解。静的・動的ルーティングの違いと実装時の技術的考慮事項。

【編集部後記】

この記事を読んで、普段何気なく使っているChatGPTが実は複雑なルーティングシステムで動いていることに驚かれた方も多いのではないでしょうか。私たちが「手短に」という一言で、知らず知らずのうちにシステムの判断を左右している可能性があるなんて、考えてみると不思議な感覚ですよね。

AIとの対話がこれほど身近になった今、セキュリティの問題は他人事ではありません。みなさんは業務でAIツールを使う際、どんなことに気をつけていますか?また、今回のような脆弱性を知った上で、AIとの付き合い方について何か変わったことはあるでしょうか。今一度考えてみるものいいかもしれませんね。

投稿者アバター
TaTsu
デジタルの窓口 代表 デジタルなことをまるっとワンストップで解決 #ウェブ解析士 Web制作から運用など何でも来い https://digital-madoguchi.com

読み込み中…
advertisements
読み込み中…