Wikipedia、AI企業にデータスクレイピング停止と有料API利用を要請―年間運営費1億7900万ドルの持続可能性が課題に

[更新]2025年11月11日

 - innovaTopia - (イノベトピア)

ウィキペディアを運営する非営利組織ウィキメディア財団は2025年11月10日、AI企業に対してデータスクレイピングを停止し、有料API「Wikimedia Enterprise」の利用に切り替えるよう要請した。

ウィキペディアは現在世界で7番目に訪問者が多いウェブサイトで、2023-2024会計年度の運営費は1億7900万ドルに達する。

財団は主に寄付で運営されているが、AIの普及により人々がウィキペディアではなくChatGPTなどのAIに質問するようになり、寄付機会の減少が懸念されている。

ウィキメディアは、AI企業が高品質な人間によるキュレーション情報を必要としていると指摘し、有料APIを通じた持続可能なアクセスと非営利ミッションへの支援を求めた。

Googleはすでにウィキメディアとコンテンツアクセスの契約を2022年に締結している。この要請は、Penske、ニューヨーク・タイムズ、News CorpなどがAI企業を著作権侵害で訴えている中で行われた。

From: 文献リンクWikipedia Asks AI Companies to Stop Scraping Data and to Start Paying Up – CNET

【編集部解説】

ウィキペディアの今回の声明は、AI時代における知識インフラの持続可能性という、極めて本質的な問いを投げかけています。

ウィキメディア財団が公表した別のブログ記事によれば、2025年5月と6月にトラフィックの急増が観測されましたが、ボット検出システムを更新した結果、その多くがAIボットによるものだと判明しました。さらに深刻なのは、人間による実際のページビューが前年比で8%減少していることです。多くのAIボットは人間のように振る舞い、検出を回避しようとしていたといいます。

ここには構造的なジレンマがあります。AI企業は高品質なトレーニングデータとしてウィキペディアを必要としていますが、AIが普及すればするほど、ユーザーはウィキペディアを直接訪れなくなります。ユーザーがChatGPTやPerplexityで質問に答えを得られるなら、わざわざウィキペディアにアクセスする必要はありません。その結果、寄付の機会が減り、ウィキペディアの資金基盤が揺らぐのです。

ウィキペディアは世界中の数十万人のボランティア編集者によって支えられています。彼らは議論と合意形成を通じて情報を精査し、300以上の言語で知識を提供しています。この人間による知識のキュレーションこそが、AIが「モデル崩壊」を避けるために不可欠な要素です。AIが既存の情報を合成することはできても、新しい知識を発見したり、議論を通じて真実に到達したりすることはできません。

財団が提案するWikimedia Enterprise APIは、AI企業が大規模にコンテンツを利用できる仕組みです。これによりサーバー負荷を軽減しながら、財団の非営利ミッションを財政的に支援できます。興味深いのは、ウィキメディアが法的措置を示唆していない点です。これは他のメディア企業とは対照的なアプローチといえます。

実際、多くのメディア企業がAI企業に対して強硬姿勢を取っています。ニューヨーク・タイムズはOpenAIを提訴し、CNETの親会社Ziff Davisも同様の訴訟を起こしました。一方で、Associated PressやReutersはライセンス契約という協調路線を選択しています。

ウィキメディアの立場はその中間にあります。法的圧力ではなく、持続可能なエコシステムの構築を呼びかけているのです。財団は、AI企業が出力に適切な帰属表示を行い、情報源を明確にすることも求めています。これは透明性とコントリビューターへの敬意の問題です。

興味深いデータとして、Wikimedia Foundationの分析では、2025年のピーク時のトラフィックのうち65%が最もコストのかかる米国のコアデータセンターの帯域幅を消費していたAIボットによるものだったことが判明しています。コンテンツは無料でも、インフラには年間300万ドルのコストがかかります。

この問題は単なるウィキペディアの課題ではありません。オープンソースプロジェクト、個人ブログ、ニュースサイトなど、ウェブ全体が同じ困難に直面しています。AI企業による無制限のスクレイピングは、知識のコモンズを生み出してきたインセンティブ構造そのものを破壊しかねません。

長期的には、この問題は知識生態系全体の設計に関わります。人間が知識を生み出し、キュレーションし、維持するためのインセンティブをどう保つか。AIが知識にアクセスし、それを再配布する際に、どのように公正な価値還元を実現するか。ウィキペディアの提案は、その答えを模索する一つの試みなのです。

【用語解説】

Wikimedia Enterprise
ウィキメディア財団が提供する有料APIサービス。AI企業や大規模組織がウィキペディアのコンテンツを効率的かつ持続可能に利用できるよう設計されている。サーバーへの負荷を抑えながら、財団の非営利ミッションを財政的に支援する仕組みを提供する。

モデル崩壊(Model Collapse)
AIが生成したコンテンツでAIを訓練し続けると、データの質が劣化し、最終的にモデルの性能が低下する現象。人間が作成した新鮮で高品質なデータが継続的に必要とされる理由となっている。

スクレイピング(Scraping)
ウェブサイトから自動的にデータを収集する技術。AI企業は大規模言語モデルの訓練データを得るためにこの手法を使用するが、サーバーに負荷をかけ、コンテンツ提供者の収益機会を奪う可能性がある。

ボット検出システム
自動化されたプログラム(ボット)によるアクセスと人間によるアクセスを区別する技術。多くのAIボットは検出を回避するため、人間のような振る舞いを模倣している。

【参考リンク】

Wikimedia Foundation – In the AI era, Wikipedia has never been more valuable(外部)
ウィキメディア財団の公式ブログ記事でAI時代のウィキペディアの価値を説明

Wikimedia Enterprise(外部)
大規模組織向けにウィキペディアコンテンツへの構造化アクセスを提供する商用API

Wikipedia(外部)
世界最大の無料オンライン百科事典で300以上の言語で提供される知識基盤

Semrush(外部)
ウェブサイトトラフィック分析とSEOツールを提供しウィキペディアのランキングデータを提供

【参考記事】

Wikipedia urges AI companies to use its paid API, and stop scraping | TechCrunch(外部)
ボット検出システム更新により2025年5-6月のトラフィック異常がAIボットと判明した経緯を詳述

Wikipedia Urges AI Companies to Use Its Paid API Instead of Website Scraping | PYMNTS.com(外部)
Wikimedia Enterpriseがグローバルな編集者基盤と非営利資金モデルを支える仕組みを解説

Freeloading AI Companies Scrape Data Even from Non-Profit Wikipedia | CXOtoday(外部)
AI企業によるただ乗りの実態とウィキペディア訪問減少による影響を批判的に分析

AI’s insatiable demand for data is crushing Wikimedia’s infrastructure | Constellation Research(外部)
最もコストのかかるトラフィックの65%がボットであることなどインフラコストの詳細データを提供

After being overwhelmed by AI crawlers, Wikipedia has surrendered | Medium(外部)
AI企業がrobots.txtを無視しクローラーを変更して検出回避する手法の実態を報告

 

【編集部後記】

ウィキペディアが直面しているこのジレンマは、実は私たち全員に関わる問題です。AIが便利になればなるほど、その背後で知識を支えている人々やプラットフォームへの還元が減っていく——この構造的な矛盾を、私たちはどう乗り越えていけばいいのでしょうか。

ウィキペディアは25年にわたり、無償で質の高い情報を提供し続けてきました。それを支えているのは、世界中の数十万人のボランティア編集者たちです。彼らの献身的な努力がなければ、AIは信頼できる知識の源を失い、やがて自らが生成した情報を再利用する「モデル崩壊」に陥るかもしれません。

今回のウィキメディアの呼びかけは、単なる資金の問題ではなく、知識のエコシステム全体をどう持続可能にしていくかという、より大きな問いかけでもあります。みなさんは、AIと人間の知識創造の関係について、どのようにお考えでしょうか。innovaTopia編集部も、この変革期における新しいバランスの在り方を、みなさんと一緒に考えていきたいと思います。

投稿者アバター
Satsuki
テクノロジーと民主主義、自由、人権の交差点で記事を執筆しています。 データドリブンな分析が信条。具体的な数字と事実で、技術の影響を可視化します。 しかし、データだけでは語りません。技術開発者の倫理的ジレンマ、被害者の痛み、政策決定者の責任——それぞれの立場への想像力を持ちながら、常に「人間の尊厳」を軸に据えて執筆しています。 日々勉強中です。謙虚に学び続けながら、皆さんと一緒に、テクノロジーと人間の共進化の道を探っていきたいと思います。

読み込み中…
advertisements
読み込み中…