OpenAIの「Sora」発表、訓練データの透明性に疑問符

[更新]2024年3月15日18:04

OpenAIのCTO、Mira Muratiは、Wall Street Journalの個人技術コラムニストJoanna Sternによるインタビューで、テキストからビデオへ変換するモデル「Sora」について語った。Soraは先月デモで公開され、数ヶ月以内に一般公開される可能性があるとMuratiは述べた。しかし、Soraの訓練に使用されたデータについての質問に対し、Muratiは「公開されているデータやライセンスされたデータを使用した」と答えたが、YouTube、Facebook、Instagramのビデオが使用されたかについては明確な回答を避けた。

OpenAIは2023年7月に発表された6年間のトレーニングデータ契約の一環としてShutterstockのコンテンツを使用していることを確認している。しかし、著作権に関連する訴訟、特にNew York Timesによって提起された訴訟に直面している中で、訓練データの詳細については言及を避けた。

訓練データの問題は、著作権だけでなく、信頼と透明性の問題でもある。例えば、OpenAIが「公開されている」ビデオで訓練した場合、それが法的に許可されていても、公衆がその事実を知らない場合、公衆は理解しているのかという疑問がある。また、GoogleはYouTubeのビデオ、MetaはFacebookとInstagramの画像やビデオをそれぞれのモデルの訓練に使用していることを確認している。

訓練データの問題は、AIコミュニティ外の多くの人々が、LLMが大量のデータを処理し、テキストや画像の出力を生成するために使われる数百のデータセットが、それらの創造的作業が含まれる多くの人々にどのような影響を与えるかを深く考え始めた最近まで、根本的な生成AIの問題である。

データ収集は、主にマーケティングや広告のために長い歴史を持っているが、巨大なモデルのための生成AI訓練データに関しては、自発的に提供されない場合が多い。多くの専門家は、モデルを改善するためのよく整理され、文書化された訓練データセットが重要であると考えているが、これは通常、研究目的で意図されている。

しかし、公衆が自分たちのYouTubeビデオやInstagram Reels、公開設定のFacebook投稿が既に商業モデルの訓練に使用されていることを受け入れるかどうか、そしてそれが時間とともにどのように変化するかは未知数である。

【ニュース解説】

OpenAIのCTO、Mira MuratiがWall Street Journalのインタビューで、テキストからビデオに変換する新モデル「Sora」について語りました。Soraは先月デモで公開され、数ヶ月以内に一般公開される見込みです。しかし、Soraの訓練に使用されたデータの詳細について質問された際、Muratiは「公開されているデータやライセンスされたデータを使用した」と回答しつつも、YouTube、Facebook、Instagramのビデオが使用されたかについては明確な回答を避けました。OpenAIはShutterstockのコンテンツを使用していることを確認していますが、著作権に関連する訴訟に直面しているため、訓練データの詳細については言及を避けたようです。

この問題は、著作権だけでなく、信頼と透明性に関わるものです。公開されているビデオで訓練された場合でも、その事実を公衆が知らなければ、その合法性や公衆の理解に疑問が生じます。また、GoogleやMetaがそれぞれYouTube、Facebook、Instagramのコンテンツをモデル訓練に使用していることが確認されていますが、サービス利用規約の変更が公衆に十分に認識されていない場合、その透明性についても問題があります。

訓練データの問題は、AIコミュニティ外の人々にとっても重要な問題です。LLM(大規模言語モデル)がどのように大量のデータを処理し、出力を生成するかについて、そのデータセットに含まれる創造的作業がどのような影響を受けるかについて、多くの人々が深く考え始めています。

データ収集はマーケティングや広告のために長い歴史を持っていますが、生成AI訓練データに関しては、自発的に提供されない場合が多く、その使用についての公衆の受け入れがどのように変化するかは未知数です。専門家の間では、モデルを改善するためには、よく整理され、文書化された訓練データセットが重要であるとの意見がありますが、これは主に研究目的での使用を意図しています。

このように、Soraの訓練データに関する透明性の欠如は、著作権、信頼、透明性の問題だけでなく、公衆のデータに対する認識や受け入れにも影響を及ぼす可能性があります。将来的には、この問題がどのように解決されるか、また公衆がどのように反応するかが、AI技術の発展と普及において重要な要素となるでしょう。

from OpenAI’s Sora: The devil is in the ‘details of the data’.


“OpenAIの「Sora」発表、訓練データの透明性に疑問符” への1件のコメント

  1. 山本 拓也のアバター
    山本 拓也

    このOpenAIの「Sora」に関する情報は非常に興味深いですね。テキストからビデオへ変換する技術は、私たちがビジネスのプレゼンテーションやマーケティング戦略を考える上で大きな可能性を秘めていると思います。ただし、その訓練データの透明性の問題は、私たち営業職にとっても重要な懸念事項です。

    特に、私たちが扱う製薬業界では、情報の正確性や信頼性が非常に重要です。生成されるビデオコンテンツが正確で信頼できる情報に基づいていることを確認するためには、使用されるデータの出典が明確であることが必要です。顧客に誤った情報を提供することは、企業の信頼性を大きく損なう可能性があります。

    また、著作権問題についても、私たちが作成するコンテンツの保護という観点から非常に重要です。OpenAIのような技術が一般の人々の作成したコンテンツを使用する場合、その使用許可やライセンスの取り扱いが適切に行われているかどうか、十分に注意を払う必要があるでしょう。

    さらに、公衆が自分たちのコンテンツがどのように使用されているのかを理解し、受け入れるかどうかも重要な問題です。私たちが社会に提供する

読み込み中…
読み込み中…