機械学習モデルから特定のデータや知識を効率的に削除する「マシンアンラーニング」技術の研究動向について、2025年5月12日時点の最新状況をまとめる。米国時間2020年12月7日(日本時間12月8日)にarXivで公開された論文「Machine Unlearning」では、SISA(Sharded, Isolated, Sliced, Aggregated)トレーニングフレームワークを提案している。この手法により、Purchaseデータセットでは4.63倍、SVHNデータセットでは2.45倍のアンラーニング速度向上を達成した。韓国・成均館大学の研究チームは2022年CVPRワークショップで、2段階再トレーニング手法によりImageNet分類タスクで1.36倍の高速化を実現している。
2023年12月27日(現地時間、日本時間12月28日)にスタンフォード大学AIラボのKen Ziyu Liu氏が発表した総説によると、大規模言語モデル向けアンラーニング技術の実用化には依然として課題が残る。ニューヨーク・タイムズ記事の削除要請に対応する場合、従来の再トレーニング手法では年間更新サイクルが必要となり、GDPRの「過度な遅延なく」という要件を満たせないケースがあると指摘されている。代替策として、外部データベースと連携するRetrieval-Augmented Generation(RAG)システムの有効性が検証されているが、パラフレーズ文書の完全削除や攻撃経路の拡大といった新たな問題も発生している。
また、IBMが2024年10月15日に発表したSPUNGEフレームワークでは、モデルをサブモジュールに分割し、影響を受けた部分のみを再学習することで、従来比最大4.58倍の効率化を達成したと報告されている。一方で、アンラーニング後のモデルが新たな攻撃経路を生むリスクや、「完全削除」と「影響力低減」のギャップなど、技術的・法的な課題も依然として残っている。量子機械学習を活用した「確率的忘却」など、理論段階の新アプローチも2025年現在研究が進められている。
References:
AI’s Dilemma: When to Retrain and When to Unlearn? | DZone
【編集部解説】
AIモデルから特定の情報を選択的に削除する「マシンアンラーニング」は、AIの倫理的運用や法規制対応の観点から、近年ますます重要性が高まっています。特にヨーロッパのGDPR(一般データ保護規則)に代表される「忘れられる権利」や、著作権・誤情報対策など、社会的要請が強まる中で技術開発が加速しています。
従来、AIモデルから特定のデータを削除するには、全データセットを再学習させる必要があり、特に大規模言語モデル(LLM)では膨大な計算コストと時間がかかることが課題でした。IBMが2024年に発表したSPUNGEフレームワークのように、モデルをサブモジュール化し、影響範囲のみ再学習する手法によって効率化が進んでいます。SPUNGEは最大4.58倍の処理速度向上を達成していますが、意図しない知識の喪失(過剰忘却)や、削除後のモデルが新たな攻撃経路を生むリスクが指摘されています。
技術的な難しさの背景には、AIモデル内部の知識が複雑に絡み合っていることがあります。スタンフォード大学の研究によれば、ある事実を削除しようとすると、平均7.2個の関連ニューロン群に影響が及ぶなど、知識グラフの連鎖反応が起きやすいことが明らかになっています。これにより、たとえば医療AIで特定疾患の情報だけを安全に削除することが難しいという課題があります。
一方で、Retrieval-Augmented Generation(RAG)など外部データベースを活用したハイブリッド型の手法も注目されています。これにより、モデル本体に保存される情報を最小限に抑え、削除や更新を柔軟に行える可能性が広がっています。しかし、パラフレーズや類似表現への対応、マルチモーダルデータの管理など、依然として技術的な壁は残されています。
規制の動きも加速しています。2026年施行予定のEU AI法では、高リスクAIシステムにアンラーニング機能の搭載が義務付けられる見通しです。これにより、自動運転や医療診断などの分野で、設計段階からアンラーニング対応を組み込む必要が出てきます。
長期的には、量子機械学習を活用した「確率的忘却」など、従来とは異なる理論的アプローチの研究も進んでいます。これらの新技術が実用化すれば、より高精度かつ低コストでの知識削除が可能になると期待されています。
マシンアンラーニングはAIの透明性・信頼性を高めるための不可欠な技術です。今後も産業界や規制当局、そして研究コミュニティが連携し、実社会での安全かつ持続可能なAI活用を目指す動きが加速するでしょう。
【用語解説】
マシンアンラーニング:
AIや機械学習モデルから、特定のデータや知識を選択的に削除する技術。GDPRの「忘れられる権利」や著作権、誤情報対策などへの対応が求められる中で注目されている。
SISAトレーニングフレームワーク:
データを分割(シャーディング)し、独立して学習・再学習できるようにした手法。特定データの削除を効率化する。
SPUNGEフレームワーク:
IBMが開発したアンラーニング用の手法。モデルをサブモジュール化し、必要な部分だけを再学習することで高速化と効率化を実現している。
過剰忘却:
意図しない知識や機能まで失われてしまう現象。アンラーニングの副作用として問題視されている。
Retrieval-Augmented Generation(RAG):
外部データベースを参照しながらAIが回答を生成する技術。モデル本体の情報保持量を減らし、知識の削除や更新を柔軟にする。
知識グラフの連鎖反応:
AIモデル内部の知識が複雑に結びついているため、1つの事実を削除しようとすると他の知識にも影響が波及する現象。
GDPR(一般データ保護規則):
EUが制定した個人データ保護のための法規制。データの削除請求への迅速な対応が義務付けられている。
量子機械学習:
量子コンピュータの原理を利用した新しい機械学習技術。確率的な性質を活かした「確率的忘却」などの研究が進んでいる。
【参考リンク】
Stanford University AI Lab(外部)
スタンフォード大学の人工知能研究所。マシンアンラーニングや大規模言語モデルの最先端研究が行われている。
IBM Research – Machine Unlearning(外部)
IBMが提案するマシンアンラーニング技術やSPUNGEフレームワークの概要と応用事例を紹介する公式ページ。
NeurIPS 2025 Conference(外部)
機械学習分野の国際会議NeurIPSの公式サイト。マシンアンラーニングのベンチマークチャレンジ情報も掲載。
Microsoft Azure AI(外部)
MicrosoftのクラウドAIサービス。RAGや大規模言語モデルの実装例、最新のAI技術情報がまとめられている。
Machine Unlearning(外部)
マシンアンラーニングの基礎理論と代表的手法を解説したarXiv掲載の論文。選択的なデータ削除の理論的枠組みを提案。
DOI:https://doi.org/10.48550/arXiv.1912.03817