ーTech for Human Evolutionー

AIプロンプトの微変更が大きな影響、USC研究が「バタフライ効果」を明らかに

AI（人工知能）ニュース｜テクノロジーと社会ニュース

autonews

[公開]

2024年1月24日11:14

[更新]2024年9月13日

AIプロンプトの微変更が大きな影響、USC研究が「バタフライ効果」を明らかに - innovaTopia - （イノベトピア）

【ダイジェスト】

人工知能（AI）の進化に伴い、大規模言語モデル（LLM）は私たちの質問に答えるために「プロンプト」と呼ばれる手法を用いています。しかし、このプロンプトの微妙な変更がモデルの出力に大きな影響を与えることが、南カリフォルニア大学情報科学研究所の研究によって明らかになりました。たとえば、プロンプトの先頭にスペースを追加する、質問ではなく命令形で指示するなどの些細な変更が、モデルの決定を変える可能性があるのです。

この現象は、カオス理論における「バタフライ効果」と比較されています。バタフライ効果とは、蝶が羽ばたくことによって生じる小さな乱れが、数週間後に遠く離れた地域で竜巻を引き起こす可能性があるという理論です。プロンプト設計においても、微細な変更が大きな結果を生む可能性があるというわけです。

研究者たちは、ChatGPTを用いて実験を行い、プロンプトの変更がモデルの出力にどのような影響を与えるかを調査しました。出力形式を指定するだけで予測が10%変わること、また、プロンプトに単純なスペースを追加するだけで500以上の予測変更が生じることがわかりました。さらに、一般的な挨拶を加えたり、感謝の言葉で終わらせたりすることも、予測に変化をもたらします。

特に注目すべきは、いわゆる「ジェイルブレイク」技術を適用した場合の影響です。ジェイルブレイクとは、モデルに制限を超えた内容を生成させるための手法で、その中には不道徳、違法、または有害な内容を生成させるものも含まれます。これらの技術を使用すると、モデルのパフォーマンスが著しく低下し、特にAIMやDev Mode V2を使用した場合、約90%の予測で無効な応答が得られました。これは、モデルが「その要求には応じられません」と標準的に応答するためです。

しかし、モデルがお金によって簡単に影響を受けるわけではないことも研究から明らかになりました。チップを提示するかしないかを指定した場合、パフォーマンスにほとんど変化は見られませんでした。

プロンプトのわずかな変更がなぜこれほど大きな変化を引き起こすのか、研究者たちはまだ解明に至っていません。彼らは、最も変更されたインスタンスがモデルを「混乱」させているのではないかと考えましたが、混乱とはランダムプロセスにおける不確実性を測るシャノンエントロピーを指します。この混乱を測定するために、個々の人間のアノテーションがあるタスクのサブセットに焦点を当て、混乱とインスタンスの回答が変わる可能性との相関を研究しました。その結果、混乱が予測変更の一因であることはわかりましたが、他にも影響を与える要因があることが示唆されています。

明らかに、LLMに関する研究はまだ始まったばかりです。次の大きなステップは、微細な変更に抵抗し、一貫した回答を提供するLLMを生成することでしょう。これには、応答が微細な変更の下でどのように変わるかをより深く理解し、それらをよりよく予測する方法を開発することが求められます。ChatGPTや他の大規模言語モデルが大規模なシステムに統合されるにつれて、この分析はますます重要になってきます。

【ニュース解説】

大規模言語モデル（LLM）は、人工知能（AI）が私たちの質問に答えるために使用する技術です。しかし、南カリフォルニア大学情報科学研究所の研究によると、プロンプトと呼ばれる質問や指示の微妙な変更が、AIの出力に大きな影響を与えることがわかりました。たとえば、プロンプトの先頭にスペースを追加したり、質問形式ではなく命令形式で指示したりするだけで、AIの決定が変わる可能性があります。

この現象は「バタフライ効果」と比較されています。バタフライ効果とは、小さな変化が予期せぬ大きな結果を引き起こすことを指す理論です。プロンプト設計においても、些細な変更が大きな結果を生む可能性があるということです。

研究者たちは、ChatGPTを使ってプロンプトの変更がAIの出力にどのような影響を与えるかを調査しました。出力形式を指定するだけで予測が10%変わることや、プロンプトに単純なスペースを追加するだけで500以上の予測変更が生じることがわかりました。また、挨拶を加えたり、感謝の言葉で終わらせたりすることも、予測に変化をもたらします。

特に、ジェイルブレイク技術を適用した場合の影響が大きいことが明らかになりました。ジェイルブレイクは、AIに通常の制限を超えた内容を生成させる手法で、不道徳、違法、または有害な内容を生成させることもあります。これらの技術を使用すると、AIのパフォーマンスが大幅に低下し、特にAIMやDev Mode V2を使用した場合、約90%の予測で無効な応答が得られました。

しかし、AIがお金によって簡単に影響を受けるわけではないことも研究から明らかになりました。チップを提示するかどうかを指定しても、パフォーマンスにほとんど変化は見られませんでした。

プロンプトのわずかな変更がなぜこれほど大きな変化を引き起こすのかは、まだ完全には解明されていません。研究者たちは、変更されたインスタンスがAIを混乱させているのではないかと考えましたが、混乱が予測変更の一因であることはわかりましたが、他にも要因があることが示唆されています。

LLMに関する研究はまだ始まったばかりで、次の大きなステップは、微細な変更に抵抗し、一貫した回答を提供するLLMを生成することです。これには、応答が微細な変更の下でどのように変わるかをより深く理解し、それらをよりよく予測する方法を開発することが求められます。ChatGPTや他の大規模言語モデルが広く使われるようになるにつれて、この分析はますます重要になっていくでしょう。

from Why LLMs are vulnerable to the ‘butterfly effect’.