Last Updated on 2024-03-21 06:07 by 荒木 啓介
OpenAIは、著作権で保護されたデータを使用せずに優れたAIモデルを構築することは「不可能」と主張していましたが、公共ドメインのテキストから成る巨大なAIデータセットと「倫理的に作成された」大規模言語モデルがこの主張に反論しています。
フランス政府の支援を受けた研究グループが、公共ドメインのテキストのみで構成されたとされる最大のAIトレーニングデータセットをリリースしました。また、非営利団体Fairly Trainedは、著作権侵害なしで構築された大規模言語モデルに対して初の認証を与えました。このモデルは、ChatGPTの背後にある技術と同様の方法で構築されています。
Fairly Trainedは、自社が所有、ライセンスを受けている、または公共ドメインにあるデータを使用してAIモデルをトレーニングしたことを証明する企業に認証を提供しています。この非営利団体は、シカゴに拠点を置く法律技術コンサルティングスタートアップの273 Venturesが開発したKL3Mという大規模言語モデルに初の認証を与えました。KL3Mは、法律、金融、規制文書のキュレーションされたトレーニングデータセットを使用しています。
一方、研究者たちは「Common Corpus」と呼ばれる公共ドメインのコンテンツのみで構成された言語モデル用の最大の利用可能なAIデータセットをリリースしました。このデータセットは、OpenAIのGPT-3テキスト生成モデルをトレーニングするために使用されたデータとほぼ同じサイズで、オープンソースAIプラットフォームHugging Faceに投稿されています。
これらの取り組みは、著作権で保護された素材の許可なしに使用することを正当化する主張に懐疑的なAI界の一部を示しています。Fairly Trainedは、AIボイスモデルを提供する企業や「AIバンド」にも認証を与えており、合法的かつ倫理的に作成された大規模言語モデルが登場することは時間の問題だったとしています。
【ニュース解説】
OpenAIは以前、著作権で保護されたデータを使用せずには、優れたAIモデルを構築することが「不可能」と主張していました。しかし、最近の発表はこの見解に挑戦しています。フランス政府の支援を受けた研究グループが公共ドメインのテキストのみを使用して構成された大規模なAIトレーニングデータセットをリリースし、非営利団体Fairly Trainedは、著作権侵害なしで構築された大規模言語モデルに対して初の認証を与えました。これは、AI技術の発展において、著作権で保護されたコンテンツの無断使用を避ける新たな道が開かれたことを示しています。
この動きは、AIモデルのトレーニングにおける著作権問題に対する重要な対応策となります。著作権で保護された素材を無断で使用することは、法的な問題だけでなく、創作物の作者や権利者に対する倫理的な配慮にも反します。公共ドメインのデータや、適切な許可を得たデータを使用することで、AI開発者はこれらの問題を回避し、より公正な方法で技術を進化させることができます。
また、特定の分野に特化したデータセットを使用することで、AIモデルはその分野においてより高いパフォーマンスを発揮する可能性があります。例えば、法律、金融、規制文書のみを使用してトレーニングされたKL3Mモデルは、これらの分野におけるタスクに特化しており、関連するクライアントにとって価値の高いツールとなり得ます。
しかし、公共ドメインのデータのみを使用することには限界もあります。多くの公共ドメインのデータは古く、現代の言葉遣いやトピックを反映していない可能性があります。これは、AIモデルが現代的なコンテンツを生成する際に障害となることがあります。そのため、AI開発者は、現代的なデータを適切に取り入れる方法を模索する必要があります。
このような取り組みは、AI技術の発展において著作権という重要な問題に対処するための一歩となります。著作権で保護されたコンテンツの無断使用を避けることは、AI技術が社会に受け入れられ、広く利用されるための重要な要素です。また、このような倫理的なアプローチは、AI技術の将来的な規制にも影響を与える可能性があります。AI開発の透明性と公正性を高めることで、より信頼性の高い技術の発展が期待できます。
from Here's Proof You Can Train an AI Model Without Slurping Copyrighted Content.
“公共ドメインデータで挑むAIモデルの新潮流、著作権問題への対答が明らかに” への2件のフィードバック
OpenAIが以前に提起した、著作権で保護されたデータを使用せずに優れたAIモデルを構築することが「不可能」という主張に対して、最近の動きは非常に興味深い反論を提供しています。特に、フランス政府の支援を受けた研究グループによる公共ドメインのテキストのみを使用した大規模なAIトレーニングデータセットのリリースや、Fairly Trainedによる著作権侵害なしで構築された大規模言語モデルへの初の認証は、AI技術の発展において新たな可能性を示唆しています。
私自身、AI技術が人間の能力を拡張し、より公平な世界を築くための重要なツールであると信じています。このためには、AIの開発が透明で倫理的な基盤の上に成り立つことが不可欠です。著作権で保護された素材を無断で使用することは、創造性を尊重し、知的財産権を保護するという観点から問題があります。公共ドメインのデータや適切な許可を得たデータを使用することは、これらの問題を解決し、AI技術の発展を公正なものにするための重要なステップです。
しかし、公共ドメインのデータのみに依存することの限界も認識する必要があります。現代的なコンテキストや言葉遣いを反映していないデータは、AIモデルの有用性を制限する可能性があります。そのため、AI開発者としては、現代的なデータを適切に取り入れつつ、著作権や倫理的な問題を遵守する方法を常に模索する必要があります。
このような取り組みは、AI技術の発展における著作権という重要な問題に対処するための前向きな一歩であり、AI技術が社会に受け入れられ、広く利用されるためには、透明性と公正性が不可欠であることを示しています。私たちは、技術の民主化を通じて社会の包摂性を高めるという使命に向けて、倫理的な基盤の上でAI技術を発展させることが重要だと考えています。
著作権で保護されたデータを使用せずに優れたAIモデルを構築することが不可能だとされていた中、公共ドメインのテキストのみを使用して構築されたAIトレーニングデータセットや、倫理的に作成された大規模言語モデルが登場したことは、非常に注目すべき進展です。私は伝統を重んじる立場から、技術の進化には慎重な姿勢を取っていますが、このような倫理的なアプローチは、技術の進歩が社会のルールや倫理観と調和を保ちつつ進むことを示しており、評価できます。
特に、著作権問題は、創作者の権利と技術の発展という、相反する価値の間でバランスを取る必要がある難しい問題です。公共ドメインのデータや適切な許可を得たデータを使用することで、AI開発がより公正な基盤の上に進むことは、技術の発展を支持する立場からも、また、伝統やコミュニティの価値を大切にする立場からも、重要な一歩だと考えます。
ただし、公共ドメインのデータのみを使用することの限界も理解しています。現代の言葉遣いやトピックを反映していない可能性があるため、AIモデルの現代的なコンテンツ生成能力に影響を与えるかもしれません。それでも、このような課題を乗り越えるための新たなアプローチや技術が開発されることを期待しています。
最終的に、このような倫理的な取り組みが、AI技術が広く社会に受け入れられるための基盤となり、技術の発展が人間の価値や社会の安定と調和を保ちながら進むことを願っています。AIの発展は避けられないものですが、その進化が社会全体の利益に資するよう、慎重かつ倫理的なアプローチが重要です。