innovaTopia

ーTech for Human Evolutionー

EleutherAIのCommon Pile v0.1 – 8TBのクリーンなデータセットによるAI開発

 - innovaTopia - (イノベトピア)

EleutherAIが、AIモデルのトレーニング用としては最大級となる8TB規模のライセンス取得済み・オープンドメインテキストデータセット「Common Pile v0.1」を2025年6月6日(現地時間、日本時間6月7日)にHugging Faceに公開した。

このデータセットは、AIスタートアップのPoolsideやHugging Face、複数の学術機関と約2年かけて共同開発された。Common Pile v0.1には、アメリカ議会図書館やインターネットアーカイブがデジタル化した30万冊のパブリックドメイン書籍などが含まれており、法務専門家の監修のもと作成されている。また、OpenAIの音声認識モデルWhisperを用いて音声コンテンツのテキスト化も行われている。

このデータセットは、Comma v0.1-1TおよびComma v0.1-2Tという2つの新しいAIモデルのトレーニングに利用され、両モデルともパラメータ数は70億である。EleutherAIは、これらのモデルが無許可の著作権付きデータを用いて開発された他社のモデルと同等の性能を示していると主張している。特にコーディング、画像理解、数学のベンチマークにおいてMetaのLlama初代モデルと肩を並べる結果を示している。

近年、OpenAIなど多くのAI企業が著作権付きデータの利用を巡る訴訟に直面しているが、EleutherAIはこうした訴訟がAI企業の透明性を著しく低下させていると指摘している。Common Pile v0.1は、パブリックドメインやオープンライセンスのデータのみを用いることで、合法性と性能を両立させている点が特徴である。

EleutherAIは今後も研究・インフラパートナーと連携し、オープンデータセットの公開を継続していく方針であり、今回の開発にはトロント大学など多くのパートナーが参画していることも明らかにされた。

from:文献リンクEleutherAI releases massive AI training dataset of licensed and open-domain text | TechCrunch

【編集部解説】

AI開発における著作権問題が世界的に注目される中、EleutherAIが公開した「Common Pile v0.1」は、合法性と性能の両立を目指す新たな取り組みとして高い意義を持っています。従来のAIモデル開発では、著作権の所在が不明確なデータを利用するケースが多く、訴訟リスクや透明性の低下が課題となっていました。Common Pile v0.1は、パブリックドメインやライセンスが明確なテキストのみを厳選しているため、開発者や企業にとって安心して利用できる基盤となります。

このデータセットは8TBという大規模なもので、AIモデルの学習に十分な量と多様性を備えています。新たに公開された70億パラメータのAIモデル「Comma v0.1-1T」「Comma v0.1-2T」は、Common Pile v0.1の一部だけで競合他社の著名モデルと同等の性能を示しており、オープンかつ合法なデータでも高いAI性能が得られる可能性を示唆しています。これは、「高性能なAI=グレーなデータ利用」という従来の常識に一石を投じる動きと言えるでしょう。

また、Common Pile v0.1の構成を見ると、主に英語のパブリックドメイン書籍や各種オープンデータが中心となっています。現時点で日本語など他言語の割合は限定的であり、日本語AIの開発用途には十分とは言えない可能性があります。今後は多言語化や各国の法制度への対応が課題となるでしょう。

今回の動きは、AI分野における透明性や倫理性の向上に寄与するとともに、オープンデータ活用の新たな可能性を示しています。研究者や企業は、このようなデータセットを活用することで、より公正で持続可能なAI開発を進めていくことが期待されます。今後は、データセットの多言語化や利用事例の蓄積、ライセンス管理のさらなる厳格化などが、AI開発の新たな基準となっていくでしょう。

 【用語解説】

オープンライセンス
誰でも自由に利用・再配布・改変ができるライセンス形態。CC BY、CC0、MIT、BSDなどが含まれる。

パブリックドメイン
著作権が消滅するか、権利者が放棄したことで、誰でも自由に利用できる状態の著作物。

パラメータ(モデルパラメータ)
AIモデル内部の重みやバイアスなど、学習によって最適化される数値。モデルの規模や性能を示す指標。

トークン
自然言語処理で使われる単語や記号、サブワードなどの最小単位。AIモデルの学習や推論時にデータを分割する際の単位。

Whisper
OpenAIが開発したオープンソースの音声認識モデル。多言語音声を高精度でテキスト化できる。

Llama(ラマ)
Meta(旧Facebook)が開発した大規模言語モデル(LLM)シリーズ。オープンソースで公開されている。

【参考リンク】

EleutherAI(外部)
オープンソースAIモデルやデータセットの開発・公開を行う非営利のAI研究団体。AI分野の透明性と倫理性向上を目指している。

Poolside(外部)
AIによる自動コーディングや生成AIモデルの開発を手がけるスタートアップ。企業向けに安全性・効率性を重視したAIソリューションを提供。

Hugging Face(外部)
機械学習モデルやデータセットの共有プラットフォームを運営。世界中の研究者・開発者がAI技術を利用・公開できるエコシステムを提供。

Common Pile v0.1(Hugging Face公式)(外部)
Common Pile v0.1データセットや関連モデル、論文、利用方法などの公式情報。

Comma v0.1-1T(Hugging Faceモデルカード)(外部)
Common Pile v0.1を用いてトレーニングされた70億パラメータの大規模言語モデル。

Comma v0.1-2T(Hugging Faceモデルカード)(外部)
Common Pile v0.1を用いてトレーニングされた70億パラメータの大規模言語モデル。より多くのトークンで学習されている。

【参考記事】

The Common Pile v0.1 | EleutherAI Blog
EleutherAI公式ブログによるCommon Pile v0.1発表記事。データセットの背景や構成、開発パートナー、モデル性能比較など詳細が記載されている。

Researchers build massive AI training dataset using only openly licensed sources | The Decoder
Common Pile v0.1のデータソースやライセンス基準、収録内容、法的な留意点について解説。AI業界における透明性向上の意義も述べている。

An 8TB Dataset of Public Domain and Openly Licensed Text | arXiv
Common Pile v0.1の構成、収録ソース、学習済みモデルの性能検証、ライセンスチェック手法など技術的な詳細をまとめた論文。

【編集部後記】

いままで多くのスタートアップ企業がグレーな手法でデータをかき集めたものが今日のさまざまなAIツールの基盤になっていることは間違いありませんが、Common Pile v0.1は今後、AIをクリーンで持続可能なものへと切り替えていく必要があることを示しています。

Common Pile v0.1は基本的には英語を中心に学習されているため、日本企業が活用するという点での影響はまだ大きなものではありませんが、世界的なAI開発競争に追いつくためには、日本国内での独自な開発が急務です。

AI(人工知能)ニュースをinnovaTopiaで読む

投稿者アバター
りょうとく
画像生成AIの使い方ガイドを製作中。随時更新中です。
ホーム » AI(人工知能) » AI(人工知能)ニュース » EleutherAIのCommon Pile v0.1 – 8TBのクリーンなデータセットによるAI開発