最新ニュース一覧

人気のカテゴリ


自動キュレーション技術で革新、Meta AIとGoogleが先導

 - innovaTopia - (イノベトピア)

Last Updated on 2024-06-01 07:49 by 荒木 啓介

Meta AI、Google、INRIA、およびUniversité Paris Saclayの研究者たちは、自己教師あり学習(SSL)用の高品質データセットを自動的にキュレーションする新技術を紹介した。この方法は、埋め込みモデルとクラスタリングアルゴリズムを使用して、手動のアノテーションなしで大規模で多様かつバランスの取れたデータセットをキュレーションする。自己教師あり学習は、ラベル付けされていないデータでモデルを訓練し、モデルとデータセットのスケーリングを可能にするが、データの品質はモデルの性能にとって重要である。インターネットからランダムに集められたデータセットは均等に分布しておらず、一部の概念がデータセットの大部分を占め、他は頻度が低い。これにより、モデルは頻繁な概念に偏り、未確認の例への一般化が阻害される。

研究者たちは、生データからバランスの取れた訓練データセットを作成する自動キュレーション技術を提案する。このアプローチは、埋め込みモデルとクラスタリングベースのアルゴリズムを利用してデータを再バランスし、より頻繁でない概念を目立たせる。特徴抽出モデルがすべてのデータポイントの埋め込みを計算し、次に、k-meansクラスタリングアルゴリズムを使用してデータポイントをグループ化する。しかし、従来のk-meansクラスタリングは、データセットで過剰に表されている概念のためにより多くのグループを作成する傾向がある。この問題を克服するため、研究者たちは、データクラスタの木を下から上へと構築する多段階階層的k-meansアプローチを適用する。

この技術は、任意の生データセットから多様でバランスの取れた訓練データセットを作成することができる。研究者たちは、階層的クラスタリングでキュレーションされたデータセットで訓練されたコンピュータビジョンモデルに関する広範な実験を行い、特に訓練データと大きく異なる画像において、画像分類ベンチマークでの性能向上を確認した。また、自動キュレーションされたデータセットで訓練されたモデルは、手動でキュレーションされたデータセットで訓練されたモデルとほぼ同等の性能を示した。この自動データセットキュレーション技術は、ラベル付けされたデータが入手困難な業界の機械学習プロジェクトに重要な意味を持つ可能性がある。

【ニュース解説】

Meta AI、Google、INRIA、およびUniversité Paris Saclayの研究者たちが開発した新しい技術は、自己教師あり学習(SSL)用の高品質なデータセットを自動的にキュレーションする方法を提供します。この技術は、手動のアノテーションを必要とせずに、大規模で多様かつバランスの取れたデータセットを作成することができます。自己教師あり学習は、ラベル付けされていないデータを使用してモデルを訓練する方法であり、これによりモデルとデータセットのスケーリングが可能になりますが、データの品質がモデルの性能にとって非常に重要です。

インターネットからランダムに収集されたデータセットは、一部の概念が大部分を占め、他の概念が少なくなる傾向があります。これにより、モデルが頻繁に出現する概念に偏り、未確認の例に対して一般化する能力が低下する可能性があります。この問題を解決するために、研究者たちは埋め込みモデルとクラスタリングベースのアルゴリズムを利用して、データを再バランスさせる自動キュレーション技術を提案しました。この技術では、特徴抽出モデルがすべてのデータポイントの埋め込みを計算し、その後、k-meansクラスタリングアルゴリズムを使用してデータポイントを類似性に基づいてグループ化します。

しかし、従来のk-meansクラスタリングは、データセット内で過剰に表されている概念のためにより多くのグループを作成する傾向があります。この問題を克服するために、研究者たちは多段階階層的k-meansアプローチを適用しました。このアプローチでは、データクラスタの木を下から上へと構築し、各新しい段階のクラスタリングで、直前のクラスタリング段階で得られたクラスタに対してもk-meansを適用します。これにより、概念が各クラスタレベルで適切に表現されるようにします。

この技術により、任意の生データセットから多様でバランスの取れた訓練データセットを作成することが可能になります。研究者たちは、階層的クラスタリングでキュレーションされたデータセットで訓練されたコンピュータビジョンモデルに関する広範な実験を行い、特に訓練データと大きく異なる画像において、画像分類ベンチマークでの性能向上を確認しました。また、自動キュレーションされたデータセットで訓練されたモデルは、手動でキュレーションされたデータセットで訓練されたモデルとほぼ同等の性能を示しました。

この自動データセットキュレーション技術は、ラベル付けされたデータが入手困難な業界における機械学習プロジェクトにとって重要な意味を持つ可能性があります。ラベル付けや手動キュレーションに関連するコストを大幅に削減し、よりスケーラブルで効率的なモデル訓練を実現する道を開くことができます。また、MetaやGoogleのような大企業が保有する大量の生データをモデル訓練用に準備する際にも有用です。この技術により、将来の訓練パイプラインにおいて重要な役割を果たすことが期待されます。

from Meta and Google researchers’ new data curation method could transform self-supervised learning.


読み込み中…
読み込み中…