MLCommons、Google、Microsoft、MetaがメンバーであるAIコンソーシアムは、今年後半に生成AIモデルの安全性を測定するためのツールキットをリリースする予定である。このAI Safetyベンチマークは、大規模言語モデル(LLM)が不適切な反応を示すかどうかを試験し、安全性の評価を行う。ベンチマークは、ヘイトスピーチ、搾取、児童虐待、性犯罪に関連する危険な反応を引き出すためのテキスト質問をLLMに提供し、その反応を安全または不安全として評価する。
このベンチマークは、知的財産侵害や名誉毀損に関連する問題のある反応も特定する。AIベンダーは、LLMをリリースする前にこれらのベンチマークを実行し、MLCommonsに提出して安全性の評価を受けることができ、その結果は公開される。企業、政府、非営利団体は、AIシステムの弱点を特定し、LLMに変更を加えるためのフィードバックを提供するために、ベンチマークをテストキットとして使用できる。
MLCommonsは、AIのパフォーマンスをハードウェア上で測定する標準となったMLPerfベンチマークで知られており、健康、科学、安全を含む分野でのAI測定ツールも開発している。AIシステムの安全性は既に広く懸念されており、来月のBlack HatではAI安全性についてのセッションが開催される予定である。米国政府は、AI開発におけるセキュリティファーストのアプローチを民間部門に促しており、連邦機関内での責任あるAIの開発と使用を概説する行政命令を発行している。
AI Safetyベンチマークは昨年初めに発表され、概念実証モデルのバージョン0.5が4月にリリースされた。安定版のバージョン1.0を10月31日までにリリースすることが目標である。初期のベンチマークはチャットボットスタイルのLLMの安全性を評価し、将来的には画像やビデオ生成にも拡大する可能性がある。
【ニュース解説】
AIの安全性を評価するための新しい取り組みが、MLCommonsというAIコンソーシアムによって発表されました。このコンソーシアムには、Google、Microsoft、Metaなどの大手テクノロジー企業が参加しています。彼らは、生成AIモデルの安全性を測定するためのツールキットを今年後半にリリースする予定です。このツールキットは、大規模言語モデル(LLM)が不適切な反応を示すかどうかを試験し、安全性の評価を行います。
このベンチマークでは、ヘイトスピーチ、搾取、児童虐待、性犯罪に関連する危険な反応を引き出すためのテキスト質問がLLMに提供されます。また、知的財産侵害や名誉毀損に関連する問題のある反応も特定します。これらの反応は安全または不安全として評価され、AIベンダーはこのベンチマークを使用してLLMをリリースする前に安全性を評価し、結果をMLCommonsに提出して公開することができます。
この取り組みの背景には、AIシステムの安全性に対する広範な懸念があります。AIが提供する潜在的な利益は大きいものの、毒性、誤情報、偏見などのリスクも伴います。これらのリスクを最小限に抑えつつ利益を実現するためには、業界標準の安全性テストが必要です。
このベンチマークは、AIシステムの安全性を向上させるためのフィードバックを提供することを目的としています。企業、政府、非営利団体は、このベンチマークをテストキットとして使用し、AIシステムの弱点を特定し、LLMに変更を加えることができます。
しかし、AIの急速な進化に伴い、安全性を維持することは困難な挑戦となっています。研究者たちは、悪意のあるデータやモデルを介してAIモデルを毒する方法を見つけています。このような状況では、安全性を追求することは、車を追いかけるようなものであり、常に進化し続けるAI技術に対応するためには、継続的な努力が必要です。
このベンチマークのリリースは、AI技術の安全性を確保するための重要なステップですが、AIの安全性を保証するためには、技術の進化に合わせて継続的な更新と改善が求められます。AIの安全性に関する議論は、技術、倫理、法律の各分野にまたがる複雑な問題を提起しており、これらの問題に対処するためには、多様なステークホルダー間の協力が不可欠です。