Stony Brook大学のTuhin Chakrabarty助教授、Columbia大学のJane C. Ginsburg教授、Michigan大学のParamveer Dhillon准教授は、著名作家のスタイルを模倣したテキストに関する研究論文を発表した。
トップクラスのMFAプログラムから28人のライターを募集し、Alice Munro、Cormac McCarthy、Han Kangなど50人の受賞作家のスタイルで450語の抜粋150件の執筆を依頼した。これを150件のAI生成抜粋と比較し、159人の専門家と一般読者による盲検評価を実施した。
通常のプロンプトではAI生成テキストは不評だったが、個々の作家の全作品でChatGPTをファインチューニングした後は、専門家と一般読者の両方がAI生成テキストを好んだ。研究者らが論文中で試算したコストは10万語の小説に対しAI生成では81ドルで、人間ライターの25,000ドルと比べ99.7%削減となる。研究者らは、この結果が著作権法のフェアユース判断に影響を与えると主張している。
From: AI wins Imitation Game: Readers prefer Fanfic written by ChatGPT
【編集部解説】
この研究が示す最も重要なポイントは、AIが「ファインチューニング」という手法を用いることで、文学的な創作において人間の専門家を超える品質に到達したという事実です。従来の研究では、AIは単純なプロンプト指示だけでは高度な文学作品を生成できないとされてきました。しかし今回、個々の作家の全作品を学習させたモデルは、その前提を覆す結果を出しています。
注目すべきは評価者の構成です。MFAプログラムの学生という文学的訓練を受けた専門家たちが、盲検試験においてAI生成テキストを「スタイルの忠実性」と「執筆品質」の両面で高く評価しました。これは単に一般読者が騙されたという話ではなく、プロの目から見ても区別がつかない、あるいはより優れていると判断されたということを意味します。
経済的インパクトも無視できません。10万語の小説生成に81ドルというコストは、プロライターへの報酬25,000ドルの0.3%に過ぎません。この圧倒的なコスト差は、出版業界のビジネスモデルそのものを揺るがす可能性があります。
法的側面では、この研究結果が著作権法の「フェアユース」判断における第4要素、すなわち「著作権作品の潜在的市場または価値に対する影響」を再評価させる契機となるでしょう。AI企業は「訓練データとして使用するだけで、コピーを出力するわけではない」と主張してきましたが、本研究は「元作品のスタイルを完璧に再現し、市場で競合する作品を生成できる」ことを実証しています。
Anthropicが15億ドルを支払う内容の和解案で予備的承認を得たBartz訴訟や、現在進行中の50件以上の著作権訴訟の行方にも影響を与える可能性があります。特に、トランプ政権下で著作権登録官が解任された政治的背景も絡み、AI規制の議論は複雑さを増しています。
ポジティブな側面として、この技術は新人作家の学習ツールや、特定のスタイルでの執筆支援として活用できる可能性があります。一方でリスクとしては、人間のクリエイターの経済的基盤が崩壊し、文化的多様性が失われる懸念が挙げられます。
【用語解説】
ファインチューニング(Fine-tuning)
事前に訓練された大規模言語モデルを、特定のタスクやスタイルに特化させるために追加学習させる技術。本研究では、個々の作家の全作品を学習させることで、その作家独自の文体を再現できるようにした。
MFA(Master of Fine Arts)
美術学修士号のこと。特に創作分野における専門的な訓練を提供する大学院プログラムで、文芸創作、演劇、視覚芸術などの分野がある。本研究では米国トップクラスのライティングプログラムの学生が評価者として参加した。
フェアユース(Fair Use)
米国著作権法における重要な概念で、特定の条件下で著作権者の許可なく著作物を使用できる例外規定。教育、批評、ニュース報道などが該当するが、AI訓練データとしての使用がこれに該当するかが現在争点となっている。
盲検評価(Blind Evaluation)
評価者が評価対象の情報(今回の場合、テキストが人間によるものかAIによるものか)を知らされずに評価を行う手法。バイアスを排除し、客観的な評価を得るために用いられる。
LLM(Large Language Model)
大規模言語モデルのこと。膨大なテキストデータで訓練された深層学習モデルで、文章生成、翻訳、要約などの自然言語処理タスクを実行できる。ChatGPTやClaudeなどが代表例。
【参考リンク】
arXiv.org – 論文プレプリントサーバー(外部)
物理学、数学、コンピューターサイエンスなどの分野における研究論文を出版前に公開するプラットフォーム。本研究論文もここで公開されている。
Stony Brook University(外部)
ニューヨーク州立大学システムの一部である研究大学。本研究の主執筆者Tuhin Chakrabarty助教授が所属する。
Columbia Law School(外部)
米国を代表する法科大学院の一つ。本研究の共著者Jane C. Ginsburg教授は著作権法の権威として知られる。
The Register(外部)
1994年創刊の英国のテクノロジーニュースサイト。IT業界の動向、セキュリティ、AI技術などを批判的視点から報道する。
Anthropic(外部)
AI安全性研究を重視するAI企業で、Claude(大規模言語モデル)を開発。Bartz訴訟で15億ドルでの和解が見込まれている。
【参考記事】
Readers Prefer Outputs of AI Trained on Copyrighted Books over Expert Human Writers(外部)
本研究の原論文。ファインチューニングされたAIが専門ライターを上回る評価を得たことを実証した研究の詳細な方法論と結果が記載されている。
Bartz v. Anthropic Settlement Gets Preliminary Approval: Key Takeaways(外部)
Anthropicが著作権侵害訴訟で15億ドルでの和解案が予備的承認を得た経緯を解説。AI企業が複製された書籍でモデルを訓練したことに対する法的責任が問われた事例。
Meta AI Ruling: Meta Gets Technical Win, But Law Favors Authors(外部)
Kadrey対Meta訴訟の判決解説。Metaは技術的理由で勝訴したが、裁判官は許可なく著作権作品を複製してAIモデルを訓練することは多くの場合違法と認めた。
【編集部後記】
AIが文学の領域で人間を超えたという今回の研究結果は、私たちにとって何を意味するのでしょうか。創作活動の本質が「人間らしさ」にあるとすれば、その境界線はどこにあるのか。
あるいは、読者が求めているのは作者の人間性ではなく、純粋にテキストそのものの質なのか。この問いは、クリエイターとしての自己認識だけでなく、私たちが文化や芸術に何を求めているのかという根源的な問いにも繋がります。みなさんは、好きな作家の新作がAIによって生成されたものだと知ったとき、どう感じるでしょうか。ぜひ一緒に考えてみたいと思います。