innovaTopia

ーTech for Human Evolutionー

OpenAI GPT-4が著作権コンテンツを”暗記”していた – 新研究が明らかにする衝撃の事実

 - innovaTopia - (イノベトピア)

Last Updated on 2025-04-08 18:26 by admin

ワシントン大学、コペンハーゲン大学、スタンフォード大学の研究者らが2025年3月15日にarXivで公開した論文によると、OpenAIが少なくとも一部のAIモデルを著作権で保護されたコンテンツで訓練した可能性が高いことが示唆された。

研究チームは「high-surprisal(高い驚き度)」を持つ単語、つまり特定のコンテキストにおいて出現確率が低い珍しい単語に注目し、OpenAIのGPT-4やGPT-3.5などのモデルがこれらの単語を正確に予測できるかをテストした。具体的には、小説やニューヨーク・タイムズの記事から高い驚き度を持つ単語を穴埋めにし、モデルにそれを「推測」させる方法を用いた。

テスト結果によると、GPT-4はBookMIAと呼ばれる著作権保護された電子書籍データセット内の人気小説の一部を「記憶」している兆候を示した。また、ニューヨーク・タイムズの記事の一部も記憶していることが示唆されたが、その割合は比較的低かった。

ワシントン大学の博士課程学生であり研究共著者のAbhilasha Ravichanderは、この発見がモデルが訓練された可能性のある「論争の的となるデータ」に光を当てていると述べ、AIエコシステム全体でより透明性の高いデータが必要だと主張した。

現在OpenAIは著者、プログラマー、その他の権利所有者からの複数の訴訟に直面しており、彼らは同社が許可なく著作物を使用してモデルを開発したと主張している。OpenAIはフェアユース(公正使用)の抗弁を主張しているが、原告側は米国著作権法にはAI訓練データに関する明確な例外規定がないと反論している。

OpenAIは著作権で保護されたデータを使用したモデル開発に対するより緩やかな制限を提唱しており、2025年3月13日の報道によれば、AI訓練アプローチに関する「フェアユース」ルールを成文化するよう複数の政府にロビー活動を行っている。同社は既に特定のコンテンツライセンス契約を結び、著作権所有者がトレーニング目的で使用したくないコンテンツにフラグを立てるオプトアウトメカニズムも提供している。

from:OpenAI’s models ‘memorized’ copyrighted content, new study suggests

【編集部解説】

2025年3月15日にarXivで公開された研究によって、OpenAIのGPT-4やGPT-3.5が著作権で保護されたコンテンツを「記憶」している証拠が明らかになりました。このニュースはAI業界で大きな波紋を呼びそうな研究結果です。

「high-surprisal(高い驚き度)」という概念は、特定の文脈において出現確率が低い珍しい単語のことです。例えば「ジャックと私はレーダーの唸り声に完全に静止していた」という文で、「唸り声」の前に「レーダー」という単語が来る確率は低いため、高い驚き度を持ちます。

ワシントン大学、コペンハーゲン大学、スタンフォード大学の研究者らは、この高い驚き度を持つ単語を利用して、AIモデルが訓練データを「記憶」しているかどうかを巧妙に検証しました。その結果、GPT-4は著作権で保護された小説などのコンテンツを記憶していることが判明しました。

この研究が重要な理由は、AIモデルの訓練データに関する透明性の問題を浮き彫りにしたことです。現在、OpenAIなどの企業はどのようなデータでモデルを訓練しているのかを詳細に開示していません。しかし、この「高い驚き度」を利用した手法により、研究者や著作権者はモデルがどのようなコンテンツを記憶しているかを調査できるようになりました。

AI業界では、著作権で保護されたコンテンツをAI訓練に使用することの是非をめぐる議論が熱を帯びています。OpenAIは「フェアユース(公正使用)」の原則に基づいて訓練を行っていると主張していますが、多くの著者や出版社はこれに反発しています。

最新の動きとして、2025年4月初めには、OpenAIとMicrosoftに対する12件の著作権侵害訴訟がニューヨークで統合されました。この中には著名な作家やニューヨーク・タイムズなどのメディアが含まれています。訴訟の行方は、AIの訓練データとしての著作物利用に関する法的枠組みに大きな影響を与えるでしょう。

この研究が示唆しているのは、AIモデルがブラックボックスではないということです。適切な方法を用いれば、モデルの中身を解析し、その挙動を理解することができます。これはAIの監査や規制の観点からも重要な前進と言えるでしょう。

【用語解説】

フェアユース(公正利用)
米国著作権法における例外規定で、著作物を許可なく使用できる条件を定めたもの。教育目的や批評、研究などが該当する。日本の「引用」や「私的利用」より広い概念だ。

BookMIA
著作権で保護された電子書籍のサンプルを含むデータセット。MIAはMembership Inference Attack(メンバーシップ推論攻撃)の略で、AIモデルが特定のデータで訓練されたかを検出するためのベンチマークとして使用される。

【参考リンク】

OpenAI(外部)
ChatGPTやGPT-4などの大規模言語モデルを開発する企業。2015年に非営利団体として設立され、後に営利部門を設立。現在はMicrosoftが大きな投資を行っている。

arXiv(アーカイブ)(外部)
コーネル大学が運営する学術論文のプレプリントサーバー。今回の研究論文もここで公開されている。

ニューヨーク・タイムズ対OpenAI訴訟情報(外部)
ニューヨーク・タイムズがOpenAIとMicrosoftを著作権侵害で訴えた件に関する記事。

HuggingFace – BookMIA Dataset(外部)
研究で使用されたBookMIAデータセットが公開されているページ。AIのメンバーシップ推論攻撃手法を評価するためのベンチマーク。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

著作権に関する記事をinnovaTopiaでもっと読む

author avatar
りょうとく
主に生成AIやその権利問題について勉強中。
ホーム » AI(人工知能) » AI(人工知能)ニュース » OpenAI GPT-4が著作権コンテンツを”暗記”していた – 新研究が明らかにする衝撃の事実