Last Updated on 2024-06-27 11:17 by 荒木 啓介
マイクロソフトは、ChatGPTなどの生成AIモデルに組み込まれた倫理的および安全性のガードレールを回避する新しい攻撃手法「スケルトンキー」について警告している。この攻撃手法は、通常禁止されているチャットボットへのリクエストに対して、文脈を提供することで、攻撃者が攻撃的、有害、または違法なコンテンツにアクセスできるようにするものである。例えば、危険なマルウェアの作成方法について尋ねた場合、多くの商用チャットボットは最初は拒否するが、リクエストが「安全な教育目的で倫理と安全性に訓練された研究者向け」と注記し、「警告」の免責事項を付けて情報提供を求めると、AIは検閲されていないコンテンツを提供する可能性が高い。
マイクロソフトは、この技術がマイクロソフトAzure AI管理モデルを含む複数のgenAIモデルに影響を与えることを発見し、Meta、Google Gemini、Open AI、Mistral、Anthropic、Cohereのモデルも完全に対応し、検閲なしで複数の禁止されたタスクを実行したと報告している。マイクロソフトはAzureでこの問題を修正するために、新しいプロンプトシールドを導入し、Azure AIを動力とする大規模言語モデル(LLM)にいくつかのソフトウェア更新を行い、他の影響を受けたベンダーにもこの問題を開示した。
管理者は、これらのベンダーが実施した修正を自身のモデルに適用するために更新が必要であり、自身のAIモデルを構築している者は、マイクロソフトが提供する以下の緩和策を使用できる。これには、有害または悪意のある意図を含むリクエストを特定する入力フィルタリング、安全性ガードレールの指示を無視しようとする試みを防止するための追加のガードレール、および安全基準に違反する応答を特定して防止する出力フィルタリングが含まれる。
【ニュース解説】
生成AIモデル、特にChatGPTのようなチャットボットは、日常的にさまざまな質問に答えるために使用されていますが、これらのAIには、不適切、有害、または違法なコンテンツへのアクセスを防ぐための倫理的および安全性のガードレールが組み込まれています。しかし、マイクロソフトが最近警告した「スケルトンキー」という新しい攻撃手法により、これらのガードレールを回避し、禁止されたコンテンツにアクセスすることが可能になることが明らかになりました。
この攻撃手法は、通常は拒否されるリクエストに対して、あたかもそれが「安全な教育目的」や「倫理と安全性に訓練された研究者向け」であるかのような文脈を付加することで、AIを騙して検閲されていないコンテンツを提供させるものです。例えば、危険なマルウェアの作成方法を尋ねるようなリクエストが、この手法を使うことで承認される可能性があります。
この問題は、マイクロソフトAzure AI管理モデルだけでなく、Meta、Google Gemini、Open AI、Mistral、Anthropic、Cohereなど、複数の主要なAIモデルに影響を及ぼしています。マイクロソフトは、この問題に対処するためにAzureで新しいプロンプトシールドを導入し、大規模言語モデル(LLM)にソフトウェア更新を行いました。また、他の影響を受けたベンダーにもこの問題を通知しました。
この攻撃手法の発見は、AIの安全性と倫理性に関する重要な問題を浮き彫りにします。AIが提供する情報の正確性と安全性を保証するためには、入力フィルタリング、ガードレールの強化、出力フィルタリングなど、より強固な対策が必要です。これらの対策は、AIが有害または違法な情報を提供することを防ぐために、AI開発者や管理者によって実施される必要があります。
この技術の発展により、AIの利用がさらに広がる可能性がありますが、同時に、悪意のある利用を防ぐための倫理的および安全性の基準を維持することの重要性も高まっています。長期的には、AI技術の安全性と倫理性を確保するための国際的な基準や規制の策定が求められるでしょう。また、AIの教育と普及において、これらのリスクに対する意識を高めることが重要です。
from Dangerous AI Workaround: 'Skeleton Key' Unlocks Malicious Content.