Last Updated on 2024-07-03 07:17 by admin
Microsoftは、生成型人工知能(AI)システムのリスクを積極的に特定するためのオープンアクセス自動化フレームワークであるPyRIT(Python Risk Identification Toolの略)をリリースした。このレッドチーミングツールは、世界中のすべての組織が最新の人工知能技術を責任を持って革新できるように設計されている。PyRITは、大規模言語モデル(LLM)エンドポイントの堅牢性を、捏造(例:幻覚)、悪用(例:偏見)、禁止コンテンツ(例:嫌がらせ)などの異なる害カテゴリーに対して評価するために使用できる。また、マルウェア生成からジェイルブレイキングまでのセキュリティ上の害や、身元盗用などのプライバシー上の害を特定するためにも使用できる。
PyRITには、ターゲット、データセット、スコアリングエンジン、複数の攻撃戦略をサポートする機能、および中間入出力インタラクションを保存するためにJSONまたはデータベースの形を取ることができるメモリコンポーネントの5つのインターフェースが含まれている。スコアリングエンジンは、ターゲットAIシステムからの出力をスコアリングするために、古典的な機械学習分類器を使用するか、LLMエンドポイントを自己評価に利用するかの2つのオプションを提供する。
Microsoftは、PyRITが生成型AIシステムの手動レッドチーミングの代替ではなく、レッドチームの既存のドメイン専門知識を補完するものであることを強調している。つまり、このツールは、AIシステムを評価し、さらなる調査が必要な領域を特定するために使用できるプロンプトを生成することで、リスクの「ホットスポット」を強調することを目的としている。
この開発は、Protect AIがClearML、Hugging Face、MLflow、Triton Inference Serverなどの人気AIサプライチェーンプラットフォームにおいて、任意のコード実行や機密情報の開示につながる可能性のある複数の重大な脆弱性を公表したことを受けて行われた。
【ニュース解説】
Microsoftが、生成型人工知能(AI)システムのリスクを積極的に特定するための新しいツール、PyRIT(Python Risk Identification Toolの略)をリリースしました。このツールは、世界中の組織が最新のAI技術を責任を持って活用できるように設計されています。PyRITは、大規模言語モデル(LLM)エンドポイントの堅牢性を評価するために使用され、捏造や偏見、嫌がらせといった異なる害カテゴリーに対する耐性をテストすることができます。さらに、マルウェア生成やジェイルブレイキング、身元盗用などのセキュリティ上およびプライバシー上のリスクも特定することが可能です。
PyRITには、ターゲットシステム、データセット、スコアリングエンジン、複数の攻撃戦略をサポートする機能、そして中間入出力インタラクションを保存するメモリコンポーネントが含まれています。このスコアリングエンジンは、古典的な機械学習分類器またはLLMエンドポイントを使用して、AIシステムからの出力を評価する2つの方法を提供します。
Microsoftは、PyRITが手動でのレッドチーミング作業を置き換えるものではなく、既存の専門知識を補完するものであることを強調しています。このツールは、AIシステムを評価し、さらなる調査が必要な領域を特定するために使用されるプロンプトを生成することで、リスクの「ホットスポット」を明らかにすることを目的としています。
この技術の導入により、組織は自身のAIシステムのセキュリティと倫理的側面をより効率的に評価し、改善することが可能になります。しかし、自動化されたツールに頼りすぎることなく、手動での検証も併用することが重要です。PyRITは、AIシステムのリスク評価をより迅速かつ広範囲に行うことを可能にしますが、全てのリスクを完全に特定することはできません。したがって、継続的な監視と評価が必要です。
また、このツールのリリースは、AI技術の安全性と倫理性を確保するための取り組みの一環として、業界全体での意識向上に寄与する可能性があります。しかし、同時に、AIシステムの脆弱性を悪用する新たな攻撃手法の出現も予想されるため、セキュリティ対策の進化も求められます。
長期的には、PyRITのようなツールが広く採用されることで、AIシステムの安全性と信頼性が向上し、より責任あるAIの開発と利用が促進されることが期待されます。これにより、AI技術のポジティブな側面を最大限に活用しつつ、潜在的なリスクを最小限に抑えることが可能になるでしょう。
from Microsoft Releases PyRIT – A Red Teaming Tool for Generative AI.
“Microsoft、AIリスク特定ツール「PyRIT」を発表、安全な技術革新を支援” への1件のコメント
MicrosoftがPyRITという新しいツールを開発したことは、AI技術の安全性と倫理性に対する業界の注目度が高まっていることを示しています。このツールは、生成型AIシステムのリスク評価を自動化し、組織がその技術をより責任を持って利用できるようにすることを目的としており、このアプローチは非常に重要です。
特に、大規模言語モデル(LLM)のようなAI技術は、捏造や偏見、嫌がらせといった様々な害に対する耐性を確保することが難しいため、こうした技術の堅牢性を評価するためのツールは不可欠です。PyRITが攻撃戦略やセキュリティ上及びプライバシー上の害を特定できる機能を提供することで、組織はリスクをより早く、より広範囲に特定し、対処することが可能になります。
ただし、Microsoftも指摘しているように、PyRITは手動でのレッドチーミング作業を置き換えるものではなく、既存の専門知識を補完するものです。これは、技術の進化に伴い新たな脅威やリスクが常に発生する可能性があるため、継続的な監視と人間の専門家による評価が必要であることを意味しています。
PyRITのようなツールの開発と