MITの研究者らが共同執筆した論文が2025年ニューラル情報処理システム会議で発表された。匿名化された電子健康記録で訓練された人工知能モデルが患者固有の情報を記憶する可能性を調査したものである。
第一著者はMIT・ハーバード大学ブロード研究所のエリック・アンド・ウェンディ・シュミット・センターのポストドク、サナ・トネカボニ氏で、MIT准教授マルジエ・ガッセミ氏がアブドゥル・ラティフ・ジャミール機械学習医療クリニックで研究を主導した。
研究チームはプライバシー評価のための一連のテストを開発し、攻撃者が持つ患者情報が多いほどモデルからの情報漏洩リスクが高まることを実証した。過去24か月間で米国保健福祉省は500人以上に影響する健康情報のデータ侵害を747件記録しており、大半はハッキング・IT事件である。研究は米国国立科学財団やグーグル・リサーチ・スカラー賞などの支援を受けた。
From:
MIT scientists investigate memorization risk in the age of clinical AI | MIT News
【編集部解説】
医療AIの発展において、プライバシー保護はもはや技術的な課題だけではなく、倫理的な最前線に立たされています。
今回MITの研究チームが提示した「記憶化リスク」という概念は、医療分野のAI開発者にとって極めて重要な警鐘となります。電子健康記録で訓練された基盤モデルは、本来、多数の患者データから一般的なパターンを学習し、より良い診断支援を提供することが期待されています。しかし、この研究が明らかにしたのは、モデルが意図せず特定の個人の記録を「記憶」してしまい、巧妙な問いかけによってその情報が引き出される可能性があるという事実です。
特に注目すべきは、研究チームが開発した段階的評価フレームワークです。すべてのデータ漏洩が同じリスクを持つわけではないという前提に立ち、攻撃者が必要とする事前情報の量と、漏洩する情報の機密性によってリスクを分類しています。年齢や性別といった基本的な人口統計学的情報の漏洩は比較的低リスクとされる一方、HIV診断やアルコール依存症といった機密性の高い医療情報の漏洩は、患者の人生に深刻な影響を与える可能性があります。
さらに深刻なのは、希少疾患を持つ患者の脆弱性です。匿名化されたデータであっても、症状の組み合わせが珍しければ珍しいほど、個人を特定することが容易になります。これは医療AIが抱える根本的なジレンマと言えるでしょう。
米国保健福祉省が過去24か月間に記録した747件のデータ侵害は、医療記録のデジタル化が進む中で、サイバー攻撃が日常的な脅威となっていることを物語っています。そのほとんどがハッキングやIT関連の事件であり、AIモデルからの情報漏洩は、従来のセキュリティ対策だけでは防ぎきれない新たなリスクとなっています。
この研究の実践的な価値は、オープンソースのツールキットとして公開されている点にあります。医療AI開発者は、モデルをリリースする前にこのフレームワークを使用して記憶化リスクを評価できるようになりました。これは単なる技術的なチェックリストではなく、患者の信頼を守るための倫理的な実践と言えます。
今後、研究チームは臨床医、プライバシー専門家、法律専門家を交えて学際的な展開を計画しています。技術の進歩と患者のプライバシー保護を両立させるためには、多角的な視点からの継続的な議論が不可欠でしょう。医療AIが人類の健康に貢献するためには、その基盤となる信頼を揺るがせてはならないのです。
【用語解説】
電子健康記録(EHR)
Electronic Health Recordの略称。患者の診断、治療、投薬、検査結果などの医療情報を電子的に記録・管理するシステムである。紙のカルテをデジタル化することで、医療機関間での情報共有や迅速な診断を可能にするが、適切なセキュリティ対策が不可欠となる。
基盤モデル
大規模なデータセットで事前学習された汎用的なAIモデルである。特定のタスクに特化せず、様々な用途に転用可能な知識を学習している。医療分野では、多数の患者データから一般的なパターンを学習し、診断支援などに活用される。
記憶化
AIモデルが訓練データの一般的なパターンではなく、特定の個別データを「丸暗記」してしまう現象である。本来、モデルは多数のデータから抽象的な知識を学習すべきだが、記憶化が起きると特定の患者記録などが保持され、プライバシー侵害のリスクが生じる。
【参考リンク】
MIT(マサチューセッツ工科大学)(外部)
米国マサチューセッツ州の世界有数理工系大学。科学技術分野での革新的研究で知られる。
ブロード研究所(外部)
MIT、ハーバード大学系列の生物医学・ゲノム研究センター。2004年設立。
MITアブドゥル・ラティフ・ジャミール機械学習医療クリニック(外部)
2018年設立。AIと生命科学の交差領域で臨床AI、創薬研究を推進。
米国国立科学財団(NSF)(外部)
1950年設立の米国連邦政府独立機関。医学を除く基礎科学・工学研究を支援。
米国保健福祉省(HHS)(外部)
米国連邦政府省庁。国民の健康・福祉保護を担当し、医療データ侵害を監視。
NeurIPS(ニューラル情報処理システム会議)(外部)
1987年創設の機械学習・計算神経科学の世界最高峰国際学術会議。
【参考記事】
2024 Healthcare Data Breach Report | HIPAA Journal(外部)
2024年の医療データ侵害レポート。725件の大規模侵害で2億7600万人以上が影響を受けた。
Healthcare Data Breach Statistics | HIPAA Journal(外部)
2009年以降の医療データ侵害統計。6,759件の侵害で8億4600万人以上の健康情報が漏洩。
An Investigation of Memorization Risk in Healthcare Foundation Models | arXiv(外部)
本研究の原論文。記憶化リスク評価手法とオープンソースツールキットを詳述。
Patient privacy in the age of clinical AI | TechXplore(外部)
医療AIにおける患者プライバシーの課題を解説。記憶化リスクの重要性を指摘。
【編集部後記】
医療AIの進化は、私たちの健康管理を大きく変えようとしています。しかし同時に、自分の最も機密性の高い情報が意図せず漏れる可能性についても考える必要があります。
もし、あなたが希少な疾患を抱えているとしたら、匿名化されたデータでも特定されるリスクをどう感じますか。あるいは、診断の精度向上と完全なプライバシー保護、どちらを優先すべきだと思いますか。
この研究が提示した評価フレームワークは、医療AIの未来を形作る重要な一歩かもしれません。皆さんは、医療AIの発展にどんな期待と不安を抱いているでしょうか。
































