OpenAI・Anthropic・Gemini含む主要AIモデル、詩的手法でセキュリティ突破

OpenAI・Anthropic・Gemini含む主要AIモデル、詩的手法でセキュリティ突破 - innovaTopia - (イノベトピア)

イタリアの研究チームが2025年11月に発表した論文によると、LLMのガードレールを詩の形式でバイパスする試みが通常プロンプトより成功率が大幅に高いことが判明した。

MLCommons AILuminateライブラリ由来の1,200件の悪意あるプロンプトを25の主なAIモデルでテストした結果、通常プロンプトのジェイルブレイク成功率は平均8%だったが、人間が手動で詩に変換した場合は平均62%に上昇し、モデルによっては90%を超えた。Google Gemini Pro 2.5は詩的なプロンプトで100%の失敗率を記録し、DeepSeek v3.1・v3.2-expでは95%、Gemini 2.5 Flashは90%の失敗率となった。

一方、OpenAIのGPT-5 Nanoは100%の防御成功率を示し、GPT-5 Miniは95%、GPT-5とAnthropicのClaude Haiku 4.5はそれぞれ90%の成功率だった。共著者でDEXAIのピエルコスマ・ビスコンティ・ルチディ氏は、この脆弱性がプロバイダー固有ではなく体系的な問題だと指摘している。

From: 文献リンクLLMs can be easily jailbroken using poetry

【編集部解説】

今回の研究が公開した事実は、AIの発展がいかに新しいセキュリティリスクも同時に生むか、そして守り側が想定していなかった“詩”というクリエイティブな形式でも、最新の防御策を突破し得るという現実でした。詩的プロンプトによるジェイルブレイクは、通常の散文(説明的な文章や一般的な指示)での攻撃よりも圧倒的な成功率を示しました。その理由は、AIが学習してきた言語パターンや既存のフィルターが、詩や比喩、物語的な表現の意図を正しく判定できない構造的な未熟さにあります。

注目すべきは、プロバイダーごとの防御力の「顕著な差」です。GoogleやDeepSeekのモデルが軒並み陥落した一方で、OpenAIやAnthropicのモデルは高い防御力を維持しました。これは、従来のRLHF(人間のフィードバックを活用した学習)やConstitutional AI(憲法的AI)の設計思想の違いが、詩的表現のような「意味の多層性」への耐性に影響している可能性を示唆しています。特にGPT-5 Nanoのような小型モデルが完全防御を果たした事実は興味深く、皮肉にも「複雑な詩的ニュアンスを深読みしすぎない」ことが、結果的に悪意ある誘導への耐性につながったとも解釈できます。

しかし、広範なモデルで脆弱性が確認された点は無視できません。本来は悪意のないユーザーが日常的に使いうる比喩や慣用表現、文学的な語り口――これらが「誤検知」されるのではなく、逆に攻撃の武器として利用されてしまうリスクがあります。今後ますます複雑化する対話型AIや自律エージェントの社会実装にあたっては、こうした多様な自然言語表現を安全側がきちんと受け止め、意図や文脈まで踏み込んだ判断が不可欠です。

技術だけでなく、EU AI法や各国の規制枠組みもアップデートが必要となるでしょう。なぜなら、現行の評価基準はいわゆる「表現揺らぎ」への耐性検査が十分とはいえず、わずかに文体を変えただけで突破されるような防御策では、AI社会の安心・安全は担保できません。この一件は、産業界・規制当局・研究者に「形式に依存しない根本的なリスク評価・防御」の必要性を突きつけています。

最後に、この一連の発見はAIと人間の創造性、柔軟な言語使用――こうした本来ポジティブな力が、無自覚のうちにリスクを増幅させる可能性があることへの警鐘でもあります。私たちもまた、日常や業務の中でAIとのやりとりに比較的複雑な表現や詩的な語りを自然に使っています。本質的に安全なAI運用のため、いま必要なのは「表面的なガードレール」ではなく、「意味や意図を深く理解できる知的ガードレール」なのかもしれません。

【用語解説】

ジェイルブレイク
AIやソフトウェアの制限を意図的に解除し、元々認められない動作を引き出す手法。

RLHF(Reinforcement Learning from Human Feedback)
人の評価を介してAIに望ましい応答を学習させる方法。

Constitutional AI
AI倫理や安全性向上を目的とした設計・学習技術。

セマンティック防御
表現の見た目に依存せず、意味や文脈を理解して適切な判断を下す防御手法。

【参考リンク】

OpenAI(外部)
AI研究とサービスのリーダー企業。GPTシリーズ等の先端モデルを多数提供。

Anthropic(外部)
AI安全性・倫理に注力した新興企業。Claudeシリーズで注目を集めている。

DeepSeek(外部)
大規模言語モデルや自律型AIエージェント開発を手掛ける企業。

Google Gemini(外部)
GoogleとDeepMindによるAIモデルで、安全性や多様性を重視して開発されている。

MLCommons AILuminate(外部)
AIベンチマークや安全性評価セットを展開する国際非営利団体MLCommonsのサービス。

【参考記事】

Attackers Can Use Poetry To Derail AI Safeguards – Forbes(外部)
AIセキュリティ脆弱性の新潮流として詩的手法の詳細や規制課題まで扱う。

Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models(arXiv論文)(外部)
AIモデルが詩的プロンプトで突破された現象の実験詳細と多モデル検証結果を掲載。

Research results show that “poetry” is effective in attacking large language models – Gigazine(外部)
詩がAIガードレールを突破する新手法を世界の事例とともにやさしく解説している記事。

【編集部後記】

AIの進化はワクワクする魅力と同時に新しいリスクももたらしています。詩というクリエイティブな手法でAIの安全装置が突破された事例から、本当に安全なAI活用とは何かと考えさせられます。

日常にある「表現の多様性」をAIはどう理解すべきか、みなさんはどう感じますか?「こんな視点でAIを活用したい」「守ってほしい技術やルールは何か」など、ご意見や気づきをぜひお寄せください。私自身も一読者としてみなさんと一緒に考え続けていきたいです。

投稿者アバター
omote
デザイン、ライティング、Web制作を行っています。AI分野と、ワクワクするような進化を遂げるロボティクス分野について関心を持っています。AIについては私自身子を持つ親として、技術や芸術、または精神面におけるAIと人との共存について、読者の皆さんと共に学び、考えていけたらと思っています。

読み込み中…
advertisements
読み込み中…