innovaTopia

ーTech for Human Evolutionー

OpenVision:完全オープンソースのビジョンエンコーダーがOpenAIのCLIPとGoogleのSigLIPを超える

OpenVision:完全オープンソースのビジョンエンコーダーがOpenAIのCLIPとGoogleのSigLIPを超える - innovaTopia - (イノベトピア)

Last Updated on 2025-05-13 10:26 by admin

カリフォルニア大学サンタクルーズ校(UCSC)が2025年5月12日に「OpenVision」という完全オープンソースのビジョンエンコーダーファミリーを発表した。

OpenVisionは、2021年初頭に発表されたOpenAIの「CLIP」や、Googleの「SigLIP」などの既存モデルに代わる新たな選択肢として開発された。

ビジョンエンコーダーとは、画像などの視覚コンテンツを、大規模言語モデル(LLM)などの視覚入力を処理できないAIモデルが処理できる数値データに変換するAIモデルである。

Apache 2.0ライセンスの下で提供されるOpenVisionは、パラメータ数が590万から6億3210万までの26種類のモデルで構成されている。これにより、エッジデバイスから高性能サーバーまで、様々な用途に対応できる。

このプロジェクトはUCSCの助教授であるCihang Xie氏と、共同研究者のJianhang Xie氏、Yan Liu氏、Yiqin Tu氏、Hongru Zhu氏によって主導された。OpenVisionはCLIPのトレーニング方法論に基づいており、LLaVA搭載の言語モデルを使用して、10億規模の画像データセットの再キャプション版であるRecap-DataComp-Bデータセットを活用している。

ベンチマークテストでは、OpenVisionはLLaVA-1.5やOpen-LLaVA-Nextなどのマルチモーダルフレームワークで使用した場合、TextVQA、ChartQA、MME、OCRなどのタスクでCLIPとSigLIPの両方のパフォーマンスに匹敵または上回る結果を示した。特に最大モデルのOpenVision-H/14(6億3210万パラメータ)は、高解像度VQA、OCR、検索タスクにおいてOpenAI CLIP-L/14を大幅に上回る性能を発揮している。

モデルはPyTorchとJAXの両バージョンで利用可能で、Hugging Faceからダウンロードでき、トレーニングレシピも完全な再現性のために公開されている。

References:
文献リンクNew fully open source vision encoder OpenVision arrives to improve on OpenAI’s Clip, Google’s SigLIP

【編集部解説】

OpenVisionの登場は、AI視覚認識技術における重要な転換点と言えるでしょう。これまでビジョンエンコーダー市場はOpenAIのCLIPやGoogleのSigLIPなど、一部の大手企業が提供する「ブラックボックス」的なモデルが支配していました。これらは高性能ではあるものの、トレーニングデータやアルゴリズムが非公開であるため、研究者や開発者が改良や最適化を行うことが困難でした。

OpenVisionの最も革新的な点は、その名の通り「完全にオープン」であることです。トレーニングデータ、コード、モデルの重みまですべてが公開されており、Apache 2.0ライセンスの下で商業利用も自由に行えます。これはAI技術の民主化において大きな一歩と言えるでしょう。

論文によると、OpenVisionは単なる研究プロジェクトではなく、実用レベルの性能を持つモデル群であることが確認されています。LLaVA-1.5やOpen-LLaVA-Nextなどのマルチモーダルフレームワークで使用した場合、OpenAIのCLIPやGoogleのSigLIPと同等かそれ以上のパフォーマンスを発揮することが示されています。

特に注目すべきは、最大モデルのOpenVision-H/14(6億3210万パラメータ)が、OpenAIのCLIPやGoogleのSigLIPの最大モデルよりも大幅に大きく、高解像度VQA、OCR、検索タスクなどのマルチモーダル理解において、OpenAI CLIP-L/14を大幅に上回る性能を発揮する点です。

一方で、小型モデル(OpenVision-S/16とOpenVision-Ti/16)も、LLaVA-1.5の設定でCLIP-L/14の平均スコアの94%(S/16)と87%(Ti/16)を維持しながら、パラメータ数を大幅に削減できることが示されています。これは特に計算リソースが限られた環境での実用性を大きく高めています。

技術的な特徴として、パッチサイズを16から8に変更したモデルも提供されており、より細かい視覚的詳細を捉えることができるようになっています。これは特にTextVQAなどのタスクでTinyモデルで+4.4%、Smallモデルで+5.0%、Baseモデルで+3.3%の性能向上が見られますが、メモリ消費と処理速度のトレードオフを伴う点には注意が必要です。

OpenVisionの登場によって、どのような変化が起こるでしょうか?まず、スタートアップや中小企業でも高性能なマルチモーダルAIアプリケーションの開発が容易になります。医療画像診断、視覚障害者向けの画像説明アプリ、産業用の異常検知システムなど、様々な分野での応用が期待できます。

また、エッジコンピューティングの発展も加速するでしょう。小型モデルを使用することで、インターネット接続がない環境でも、プライバシーを保ちながら高度な画像認識機能を実現できます。これは特に医療や製造業などのセンシティブな分野で重要となります。

一方で、潜在的なリスクも考慮する必要があります。完全にオープンであるため、悪意ある使用も技術的には可能になります。例えば、ディープフェイク生成やプライバシー侵害などに悪用される可能性もあるでしょう。しかし、オープンであることは同時に、コミュニティによる監視や改良も促進するため、長期的にはより安全で信頼性の高いシステムの構築につながる可能性があります。

規制の観点からは、OpenVisionのようなオープンソースモデルの普及は、AIの透明性と説明可能性を高める方向に働くでしょう。これは現在世界各国で進められているAI規制の流れにも合致しています。

長期的な視点では、OpenVisionはAI研究開発における新たなパラダイムを示しています。大手企業の独占ではなく、コミュニティ主導の開発モデルが高性能AIの分野でも有効であることを証明したことで、今後のAI開発の方向性に大きな影響を与える可能性があります。

私たちinnovaTopiaは、このようなオープンイノベーションの流れを強く支持します。技術の民主化は、より多様で創造的なアプリケーションの誕生を促し、テクノロジーの恩恵をより広く社会に届けることにつながるからです。OpenVisionの今後の発展と応用に、大いに期待しています。

【用語解説】

ビジョンエンコーダー
画像を数値データ(ベクトル)に変換するAIモデル。人間で例えると「目で見たものを言葉で説明できる能力」のようなもので、AIが画像を「理解」するための重要な橋渡し役となる。

マルチモーダルAI
テキスト、画像、音声など複数の種類(モード)の情報を処理できるAI。人間が五感を使って世界を理解するように、AIも複数の情報源から総合的に理解できるようになる。

CLIP(Contrastive Language–Image Pre-training)
OpenAIが2021年初頭に発表したビジョンエンコーダー。画像とテキストのペアを大量に学習し、画像の内容を言語的に理解できるようにしたモデル。

SigLIP(Sigmoid Loss for Language Image Pre-training)
Googleが開発したビジョンエンコーダー。CLIPの損失関数を改良し、より効率的な学習を実現したモデル。

Apache 2.0ライセンス
オープンソースソフトウェアのライセンスの一種で、商用利用も含めて自由に使用、改変、再配布が可能。ただし、元のコードの著作権表示は維持する必要がある。

パラメータ
AIモデルの中の調整可能な値。パラメータ数が多いほどモデルの表現力は高くなるが、計算リソースも多く必要となる。家具に例えると、少

パッチサイズ
画像を処理する際に分割する小さな領域のサイズ。パッチサイズが小さいほど(8×8など)細かい詳細を捉えられるが、計算量が増加する。大きいほど(16×16など)効率的だが、細部の情報が失われる可能性がある。

【参考動画】

カリフォルニア大学サンタクルーズ校(UCSC)(外部)
米国カリフォルニア州の公立研究大学。今回のOpenVisionを開発した研究チームの所属機関。

OpenAI(外部)
CLIPを開発した企業。ChatGPTやDALL-Eなど先進的なAIモデルで知られる。

Google AI(外部)
SigLIPを開発した企業。検索エンジンで有名なGoogleのAI研究部門。

Hugging Face(外部)
OpenVisionのモデルがダウンロード可能なAIモデル共有プラットフォーム。

OpenVision GitHub(外部)
OpenVisionの公式GitHubリポジトリ。コード、モデル、トレーニングレシピが公開されている。

【参考動画】

Vision Transformer解説動画

SigLIP2のデモ動画

LLaVAの解説動画

OpenVisionの理解を深めるアナロジー

【編集部後記】

OpenVisionは「視覚の通訳者」と考えるとわかりやすい。人間が外国語を理解するために通訳者が必要なように、言語モデル(LLM)が画像を理解するためにはビジョンエンコーダーという「通訳者」が必要です。

従来のCLIPやSigLIPは「特定の会社に雇われた通訳者」だったが、OpenVisionは「フリーランスの通訳者」で、誰でも自由に雇うことができ、その通訳方法も公開されています。

さらに、小規模な会議から大規模な国際会議まで、様々な規模に対応できる「通訳者チーム」が用意されている。パッチサイズの違いは「通訳の詳細さ」に例えられます。パッチサイズ8は「細部まで丁寧に通訳する」方法で、パッチサイズ16は「要点を効率よく通訳する」方法です。

OpenVisionの登場で、AIの視覚認識技術がより身近になりつつあります。皆さんは、この技術を自分のプロジェクトやビジネスにどう活かせるか考えたことはありますか?例えば、趣味の写真整理を自動化したり、職場の画像認識システムを改良したり。もしくは、オープンソースAIの発展に自ら貢献してみるのはいかがでしょうか?OpenVisionのGitHubリポジトリを覗いてみるだけでも、AIの最前線を体感できるかもしれません。小型モデルなら一般的なPCでも動作可能ですので、気軽に試してみることをお勧めします。皆さんのアイデアや実験談をぜひSNSでシェアしてください。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

投稿者アバター
TaTsu
デジタルの窓口 代表 デジタルなことをまるっとワンストップで解決 #ウェブ解析士 Web制作から運用など何でも来い https://digital-madoguchi.com
ホーム » AI(人工知能) » AI(人工知能)ニュース » OpenVision:完全オープンソースのビジョンエンコーダーがOpenAIのCLIPとGoogleのSigLIPを超える