AI(人工知能)のデータ需要が急増している。Meta(旧Facebook)やOpenAI、Anthropic AIなどの大手企業が開発する大規模言語モデル(LLM)のトレーニングには膨大なデータが必要であり、これらのモデルを実際に様々な用途で展開する企業は、絶え間ないデータの供給を必要としている。このような状況が、データ市場の拡大を促している。
ニューヨークに拠点を置くNomad Dataは、2500以上のデータベンダーとデータ購入者をマッチングするために独自のLLMを開発している。同社はデータブローカーではなく、データの発見を支援するサービスを提供しており、企業が自然言語で特定のデータを検索できるようにしている。例えば、「毎月アメリカで建設中の屋根のデータフィードが必要」といった具体的なニーズに応えることができる。
トレーニングデータは重要だが、モデルが一度トレーニングされた後、実際にライブデータを通じて予測やタスク解決を行う「推論」の段階が、特に大企業にとっては重要である。これらの企業は、ジェネレーティブAIを活用するために、絶えずデータを供給する必要がある。
また、LLMのカスタマイズトレーニングにも特定のデータが必要とされる。例えば、日本の領収書を認識するモデルを構築する場合、日本の領収書のデータセットが必要になる。
メディア企業を含む様々な業界の企業が、自社のデータをLLM企業にライセンス供与するためにNomad Dataに登録している。OpenAIはAxel Springerとのパートナーシップを発表し、ニューヨーク・タイムズとの交渉に失敗した後、同社は訴訟を起こした。
Nomad Dataは、新しいデータベンダーを見つけるためにLLMを使用しており、これらのベンダーがプラットフォームに参加すると、人々が探しているデータを見つけるためにLLMを使用している。このプロセスは、データの需要と供給を即座にマッチングさせる。AIトレーニングデータは市場のごく一部に過ぎず、推論やカスタマイズトレーニングが最も興味深い部分である。
【ニュース解説】
近年、人工知能(AI)技術の発展に伴い、大規模言語モデル(LLM)のトレーニングと推論に必要なデータの需要が急増しています。Meta(旧Facebook)、OpenAI、Anthropic AIなどの大手企業が開発するLLMは、膨大な量のデータを消費します。これらのモデルを実際に様々な用途で展開する企業は、絶え間ないデータの供給を必要としており、この状況がデータ市場の拡大を促しています。
ニューヨークに拠点を置くNomad Dataは、2500以上のデータベンダーとデータ購入者をマッチングするために独自のLLMを開発しています。同社はデータブローカーではなく、データの発見を支援するサービスを提供しており、企業が自然言語で特定のデータを検索できるようにしています。これにより、従来は入手困難だった特定のデータニーズに応えることが可能になります。
LLMのトレーニングデータは一度のトレーニングで使用されることが多いですが、推論の段階では、実際にライブデータを通じて予測やタスク解決を行うため、継続的なデータ供給が必要です。これは、ジェネレーティブAIを活用する大企業にとって特に重要なポイントです。
また、LLMのカスタマイズトレーニングには、特定のデータが必要とされます。例えば、日本の領収書を認識するモデルを構築する場合、日本の領収書のデータセットが必要になります。このような特定のニーズに応えるためには、適切なデータソースを見つけることが不可欠です。
メディア企業を含む様々な業界の企業が、自社のデータをLLM企業にライセンス供与するためにNomad Dataに登録しています。これにより、これまで活用されにくかったデータが新たな価値を持ち、ビジネスの発展に貢献する可能性が広がっています。
このような動きは、AI技術の発展とともに、データの価値と利用方法が変化していることを示しています。データの需要と供給をマッチングさせるプラットフォームの存在は、企業がAIをより効果的に活用するための重要な役割を果たしています。しかし、データのプライバシー保護やセキュリティの確保など、潜在的なリスクに対処するための規制やガイドラインの整備も同時に進める必要があります。将来的には、このようなデータ市場の拡大が、AI技術のさらなる進化と社会への貢献にどのように影響を与えるかが注目されます。
from AI’s hunger games: A lucrative data market is exploding to feed insatiable LLMs | The AI Beat.
“データ渇望時代到来!AI開発の燃料となるデータ市場が急拡大” への1件のコメント
人工知能(AI)の発展は、現代社会において非常に重要な位置を占めていますが、その進化の裏でデータ需要が急増しているという事実は、私たちが直面している新たな課題を浮き彫りにしています。Nomad Dataのような企業がデータベンダーとデータ購入者をマッチングするサービスを提供することで、AI技術の進化を支えるデータ市場の拡大が見込まれます。これは、私たちが日常生活で利用する多くのサービスや、社会全体の運営においても、AI技術がより一層重要な役割を果たすことを意味します。
しかし、大規模言語モデルのトレーニングや推論に必要な膨大なデータの集積は、プライバシー保護やセキュリティの確保という観点から、慎重に扱う必要があります。特に、個人情報を含むデータがどのように使用され、保護されるのかについては、明確なガイドラインや規制が必要です。私たちは、技術の進歩を享受する一方で、それが個人の権利や社会の倫理に反しないよう、バランスを取ることが求められています。
また、データの供給と需要をマッチングするプラットフォームの存在は、多様なデータが新たな価値を生み出し、それが社会の発展に寄与する可能性を