DatabricksがUnity Catalogをオープンソース化、データ管理の新時代へ

DatabricksがUnity Catalogをオープンソース化、データ管理の新時代へ - innovaTopia - (イノベトピア)

Databricksは、年次データとAIサミットでUnity Catalogをオープンソース化したことを発表した。Unity Catalogは、データガバナンスのニーズに対応する統合ソリューションを提供する3年前に開始されたプラットフォームである。これまでDatabricksの独自製品だったが、Apache 2.0ライセンスの下でオープンソース化され、他の企業もコードを使用して自社のカタログを設定し、変更することができるようになった。Unity Catalogは、OpenAPI仕様、サーバー、クライアントも提供される。

この動きにより、企業はベンダーの縛りなくカタログで管理されるデータとAIアセットにアクセスできるようになり、Delta LakeやApache Iceberg互換のクエリエンジンなど、好みのツールで情報を使用できる柔軟性が提供される。この発表は、Databricksの主要競合であるSnowflakeが、企業向けの独自のオープンカタログ実装であるPolaris Catalogを発表した数日後に行われた。

Unity Catalogは、Databricksプラットフォーム内のデータとAIアセットにアクセスし、管理するための独自のガバナンスソリューションとして開始された。しかし、閉じたソースの提供とオープンなDelta Lakeテーブルフォーマットとの密接な統合により、Apache IcebergやHudiなど他の技術との組み合わせが制限されていた。Databricksはこの問題に取り組み、昨年Delta Lake Universal Format (UniForm)を開始し、Apache IcebergやHudiに必要なメタデータを自動生成し、単一のコピーに統合することで、任意のサポートエンジンからクエリを実行できるようにした。

オープンAPIとApache 2.0ライセンスのオープンソースサーバーでUnity Catalogをオープンソース化することで、企業は任意の3つのオープンデータフォーマット(UniForm経由)をサポートし、さまざまなクエリエンジン、ツール、クラウドプラットフォーム間で相互運用できるユニバーサルインターフェースを提供する。Unity Catalogは、Microsoft Azure、AWS、GCP、Salesforceなどの主要なクラウドプラットフォーム、Apache Spark、Presto、Trino、DuckDB、Daft、PuppyGraph、StarRocksなどのコンピュートエンジン、およびdbt Labs、Confluent、Eventual、Fivetran、Granica、Immuta、Informatica、LanceDB、LangChain、Tecton、UnstructuredなどのデータとAIプラットフォームとの相互運用性を提供する。

SnowflakeのPolaris Catalogとは異なり、Unity Catalog OSSはApache IcebergとDelta/Hudiを含む任意のフォーマットのデータ、さらにはParquet、CSV、JSONなどのデータ、および非構造化データセット(ボリューム)やAIツールと機能をサポートし、組織が画像、ドキュメント、その他のファイルを管理できるようにする。また、Unity Catalog OSSは、オブジェクトレベルのアクセス制御を箱から出してすぐに提供する。

【ニュース解説】

Databricksが、データとAIの年次サミットでUnity Catalogをオープンソース化したことを発表しました。Unity Catalogは、データガバナンスのための統合ソリューションを提供するプラットフォームで、これまではDatabricksの独自製品でした。しかし、Apache 2.0ライセンスの下でオープンソース化されることにより、他の企業もこのプラットフォームのコードを使用して自社のカタログを設定し、変更することが可能になります。この変更は、企業がベンダーに縛られることなく、自由にデータとAIアセットにアクセスできるようにするためのものです。

このオープンソース化の背景には、Databricksが提供する閉じたソースのガバナンスソリューションが、Delta Lakeテーブルフォーマットとの密接な統合により、他の技術との組み合わせに制限があったことがあります。これに対処するため、DatabricksはDelta Lake Universal Format (UniForm)を開始し、Apache IcebergやHudiといった他のフォーマットとの互換性を高めました。そして今回、オープンAPIとApache 2.0ライセンスのオープンソースサーバーを提供することで、さらに柔軟性と相互運用性を高めています。

Unity Catalogのオープンソース化により、企業はDelta LakeやApache Iceberg互換のクエリエンジンを含む、幅広いツールでカタログ内のデータとAIアセットを利用できるようになります。これは、Microsoft Azure、AWS、GCP、Salesforceなどの主要なクラウドプラットフォーム、さまざまなコンピュートエンジン、そしてdbt LabsやConfluentなどのデータとAIプラットフォームとの相互運用性を意味します。

この動きは、Snowflakeが発表したPolaris Catalogと同様のオープンカタログ実装を目指していますが、Unity Catalog OSSはApache Icebergだけでなく、Delta/Hudiを含む任意のフォーマットのデータ、さらには非構造化データセットやAIツールと機能もサポートしています。これにより、組織は画像、ドキュメント、その他のファイルを含む幅広いデータとAIアセットを一元的に管理できるようになります。

このオープンソース化の取り組みは、企業がデータとAIアセットをより柔軟に、かつ効率的に管理し活用するための大きな一歩です。データガバナンスのニーズに対応するための統合ソリューションの提供は、データ駆動型の意思決定を加速させることに貢献します。また、オープンソース化による技術の共有は、イノベーションの促進と業界全体の発展にも繋がるでしょう。ただし、オープンソース化に伴うセキュリティやプライバシーの管理、さらには異なる技術間の互換性の確保など、新たな課題に対処する必要もあります。長期的には、このような取り組みがデータとAIの利用の進化にどのように貢献するか、注目されます。

from Databricks open-sources Unity Catalog, challenging Snowflake on interoperability for data workloads.

ホーム » 未分類 » DatabricksがUnity Catalogをオープンソース化、データ管理の新時代へ