最新ニュース一覧

人気のカテゴリ


Microsoft Azure AIが画期的な「Florence-2」をHugging Faceに公開、多様なビジョンタスクに対応

Microsoft Azure AIが画期的な「Florence-2」をHugging Faceに公開、多様なビジョンタスクに対応 - innovaTopia - (イノベトピア)

Last Updated on 2024-06-20 04:10 by 門倉 朋宏

MicrosoftのAzure AIチームは、新しいビジョン基盤モデル「Florence-2」をHugging Faceに公開した。このモデルは、統一されたプロンプトベースの表現を使用して、様々なビジョンおよびビジョン言語タスクを処理できる。Florence-2は、232Mと771Mのパラメータを持つ2つのサイズで提供され、キャプショニング、オブジェクト検出、ビジュアルグラウンディング、セグメンテーションなどのタスクで、既存の多くの大規模ビジョンモデルと同等またはそれ以上の性能を発揮する。

Florence-2のユニークな点は、大規模言語モデル(LLM)の成功に触発され、ビジョンモデルがタスク固有であることを超えて、様々なドメインやタスクに適応できるかどうかを探求したことにある。ビジョンタスクは、広範な画像レベルの概念から細かいピクセルの詳細、高レベルのキャプションから詳細な説明まで、異なるスケールでの空間データの理解を要求する。

この問題に対処するため、Microsoftはまず、FLD-5Bと呼ばれるビジュアルデータセットを生成するために特殊なモデルを使用した。このデータセットには、1億2600万枚の画像に対して54億のアノテーションが含まれており、高レベルの説明から特定の領域やオブジェクトに至るまでの詳細がカバーされている。その後、このデータを使用してFlorence-2を訓練した。Florence-2は、画像エンコーダーとマルチモダリティエンコーダー・デコーダーを統合したシーケンス・ツー・シーケンスアーキテクチャを使用し、タスク固有のアーキテクチャ変更を必要とせずに様々なビジョンタスクを処理できる。

Florence-2は、画像とテキストの入力にプロンプトされた際に、オブジェクト検出、キャプショニング、ビジュアルグラウンディング、ビジュアル質問応答などの様々なタスクを処理し、多くの大規模モデルと同等またはそれ以上の品質でこれを実現する。例えば、COCOデータセットにおけるゼロショットキャプショニングテストでは、Florenceの232Mおよび771Mバージョンが、Deepmindの80Bパラメータを持つFlamingoビジュアル言語モデルを上回った。

現在、Florence-2の232Mおよび771Mの事前訓練済みおよび微調整済みバージョンが、商用利用や個人利用のための制限なしの配布および変更を許可する寛容なMITライセンスの下でHugging Faceに公開されている。開発者がこのモデルをどのように利用し、異なるタスクのための別々のビジョンモデルの必要性を解消するかが注目される。

【ニュース解説】

MicrosoftのAzure AIチームが開発した新しいビジョン基盤モデル「Florence-2」が、Hugging Faceに公開されました。このモデルは、様々なビジョンおよびビジョン言語タスクを統一されたプロンプトベースの表現を用いて処理することが可能です。232Mと771Mのパラメータを持つ2つのサイズで提供され、キャプショニング、オブジェクト検出、ビジュアルグラウンディング、セグメンテーションなどのタスクで、既存の多くの大規模ビジョンモデルと同等またはそれ以上の性能を発揮します。

Florence-2の開発において、Microsoftはビジョンモデルがタスク固有であることを超えて、様々なドメインやタスクに適応できるかどうかを探求しました。ビジョンタスクは、広範な画像レベルの概念から細かいピクセルの詳細、高レベルのキャプションから詳細な説明まで、異なるスケールでの空間データの理解を要求します。この課題に対処するため、Microsoftは特殊なモデルを使用してFLD-5Bというビジュアルデータセットを生成し、1億2600万枚の画像に対して54億のアノテーションを含むデータセットを作成しました。その後、このデータを使用してFlorence-2を訓練しました。

Florence-2は、画像エンコーダーとマルチモダリティエンコーダー・デコーダーを統合したシーケンス・ツー・シーケンスアーキテクチャを使用しています。これにより、タスク固有のアーキテクチャ変更を必要とせずに様々なビジョンタスクを処理できます。画像とテキストの入力にプロンプトされた際に、オブジェクト検出、キャプショニング、ビジュアルグラウンディング、ビジュアル質問応答などの様々なタスクを処理し、多くの大規模モデルと同等またはそれ以上の品質でこれを実現します。

このモデルの公開は、開発者が異なるタスクのための別々のビジョンモデルを必要とせずに済むようにすることで、開発の効率化とコンピュートコストの削減に寄与する可能性があります。また、商用利用や個人利用のための制限なしの配布および変更を許可する寛容なMITライセンスの下で提供されているため、幅広い用途での活用が期待されます。

しかし、このような統一モデルの開発と普及には、潜在的なリスクも伴います。例えば、モデルが不適切なデータで訓練された場合、バイアスが組み込まれる可能性があります。また、モデルの汎用性が高まることで、特定のタスクに特化したモデルよりも精度が低下する可能性も考えられます。さらに、このような強力なモデルの普及は、プライバシーやセキュリティに関する規制への影響も与える可能性があります。

将来的には、Florence-2のような統一ビジョンモデルが、ビジョン技術の進化と応用範囲の拡大に大きく貢献することが期待されます。しかし、その過程で生じる様々な課題に対処するためには、技術開発者、利用者、規制当局が連携し、適切なガイドラインと規制を策定することが重要です。

from Microsoft drops Florence-2, a unified model to handle a variety of vision tasks.


読み込み中…
読み込み中…