カリフォルニア大学リバーサイド校のBasak Guler助教授らの研究チームが、AIモデルから著作権データやプライベートデータを効率的に削除する新手法「ソースフリー学習解除」を開発した。
研究チームにはAmit Roy-Chowdhury教授、博士課程学生のÜmit Yiğit Başaran、ブルックヘブン国立研究所のSk Miraj Ahmed研究者が参加している。この手法は元の訓練データへのアクセスを必要とせず、代理データセットとシングルステップニュートン更新技術、ランダムノイズを組み合わせてモデルから望ましくない情報を統計的に保証して削除する。論文「A Certified Unlearning Approach without Access to Source Data」で詳述されており、テストでは完全な再訓練と同等の結果を計算能力のごく一部で達成した。現在は分類器などの比較的単純な機械学習モデルに焦点を当てており、大規模言語モデルへの適用には追加研究が必要である。
From: Boffins craft certified way for AI to unlearn private data
【編集部解説】
機械学習における「忘却」は、一見矛盾的な概念に思えるかもしれません。しかし、今回UC Riverside校の研究チームが発表した「ソースフリー学習解除」技術は、AI時代における最も重要な課題の一つに取り組んでいます。
従来のAI学習解除手法は、元の訓練データへのアクセスを前提としていました。しかし現実的には、プライバシー保護や著作権問題により、企業が大規模な訓練データセットを永続的に保管することは困難です。カリフォルニア大学リバーサイド校のBasak Guler助教授らが開発した手法は、この根本的な制約を克服します。
この技術の革新性は、代理データセットと統計的距離の概念を活用した点にあります。元データの統計的特性を近似するデータセットを使用し、シングルステップニュートン更新技術とランダムノイズの追加により、目標とする情報を削除しながらモデルの機能を維持します。重要なのは、このプロセスが完全な再訓練と同等の効果を、計算コストのほんの一部で実現することです。
技術的には、この手法はまだ分類器などの比較的単純なモデルに限定されており、ChatGPTのような大規模言語モデルへの適用には追加研究が必要です。しかし、GDPR(一般データ保護規則)やカリフォルニア州消費者プライバシー法などの規制強化を背景に、この研究の意義は計り知れません。
将来的な影響を考えると、この技術は単なる法規制への対応にとどまりません。医療機関における患者データの適切な管理、メディア企業における著作権コンテンツの制御、そして一般ユーザーによる個人データの削除要求への対応など、幅広い応用が期待されます。
一方で、過度な情報削除は「破滅的忘却」と呼ばれる現象を引き起こし、AIモデルの性能を著しく低下させるリスクも存在します。また、削除の完全性を検証する手法についても、継続的な研究が必要でしょう。
この研究は、AIの社会実装における重要な転換点を示しています。技術の発展と社会的要請のバランスを取りながら、信頼できるAIシステムの構築に向けた確実な一歩といえるでしょう。
【用語解説】
機械学習解除(Machine Unlearning): AIモデルから特定のデータの影響を除去する技術。モデルを最初から再訓練することなく、望ましくない情報を「忘れさせる」手法の総称。
ソースフリー学習解除(Source-Free Unlearning): 元の訓練データにアクセスすることなく、AIモデルから特定の情報を削除する手法。実用性が高い革新的なアプローチ。
代理データセット(Surrogate Dataset): 元の訓練データの統計的特性を近似する代替データセット。元データが利用できない場合の学習解除プロセスで使用される。
シングルステップニュートン更新: 数値最適化手法の一種。モデルのパラメータを効率的に調整するために使用される数学的技術。
GDPR(一般データ保護規則): 2018年に施行されたEUのデータ保護法。個人データの削除を求める「忘れられる権利」を含む包括的なプライバシー保護規則。
カリフォルニア州消費者プライバシー法(CCPA): 2020年に施行された米国カリフォルニア州の個人情報保護法。消費者にデータ削除権を付与している。
破滅的忘却(Catastrophic Forgetting): AIモデルが過度に情報を削除することで、全体的な性能が著しく低下する現象。
【参考リンク】
【参考記事】
【編集部後記】
私たちが日々利用するAIサービスには、膨大なデータが蓄積されています。もしかすると、あなたの個人情報や創作物も、知らないうちにAIの学習に使われているかもしれません。今回ご紹介した「AIの忘却技術」は、そんな状況に一石を投じる画期的な研究です。皆さんは、自分のデータがAIに学習されることについて、どのようにお考えでしょうか。また、完全にデータを削除することと、AIの性能維持のバランスについて、どちらを重視すべきだと思われますか。