innovaTopia

ーTech for Human Evolutionー

視覚言語モデルは否定語を含むクエリを処理できない CLIPモデル|MIT NegBenchが明らかにしたVision-Language Modelsの課題と改善策

 - innovaTopia - (イノベトピア)

Last Updated on 2025-05-14 13:24 by admin

MITニュースが2025年5月14日(米国東部夏時間、日本時間同日)に報じた研究「Vision-Language Models Do Not Understand Negation」(arXivプレプリント公開日:2025年1月16日)では、画像と言語を同時に扱う大規模モデル(VLM)が「~ではない」「ない」といった否定語を含む検索クエリをほぼ解釈できず、ランダム推測同等の結果しか出せない問題を明らかにした。

研究チームはMIT大学院生のKumail Alhamoud氏を中心に、OpenAIのYonglong Tian氏、オックスフォード大学のPhilip H.S. Torr氏らと共同で、否定表現を含む6万件超の実データと約2万件の動画・医療画像データを合わせた計約7万9,000件を18種類のタスク(NegBench)で検証した。

改善策として、否定語入りの合成キャプション数百万件を用いCLIPモデルをファインチューニングした結果、否定クエリにおける画像検索の再現率(Recall)が約10%向上し、否定文を含む多肢選択問題の正答率が最大40%改善した。成果は2025年6月に米国ニューオーリンズで開催予定のCVPR 2025で正式発表される。

References:
文献リンクStudy shows vision-language models can’t handle queries with negation words | MIT News
文献リンクVision-Language Models Do Not Understand Negation | arXiv
文献リンクResearch Shows Vision-language Models Can’t Handle Queries with Negation | Mirage News
文献リンクResearchers from MIT, Google DeepMind, and Oxford Unveil Why Vision-Language Models Do Not Understand Negation and Propose a Groundbreaking Solution | MarkTechPost

【編集部解説】

本研究は、VLMが否定語を苦手とする根本原因を「学習データに否定表現が圧倒的に不足している」点に求め、NegBenchという多彩なタスク群で性能を定量的に評価した点が画期的です。従来の画像–キャプションデータセットは「何が写っているか」を肯定的に示す例が大半で、モデルは否定を示す表現を事実上学んでいませんでした。

NegBenchの結果は、例えば「犬は写っているがヘリコプターは写っていない」画像をモデルが正しく識別できない――といった具体的事例を通じ、VLMの実用化におけるリスクを浮き彫りにしています。特に医療診断や製造業の欠陥検出といった誤判断が重大影響を及ぼす分野では、否定表現の誤認は致命的です。

一方、合成キャプションを活用したデータ中心アプローチでCLIPを再学習させる手法は、短期間で性能向上を実証しました。モデルの基礎能力を底上げする上では有効ですが、すべての否定パターンを網羅するのは困難です。今後はデータ拡張に加え、否定論理を構造的に扱う新アーキテクチャや、大規模言語モデルとの連携による推論強化が求められるでしょう。

また、この問題はAI規制や倫理ガイドラインにも波及します。否定表現の扱いが不十分なモデルを高リスク領域で使う場合、事前評価の義務化や透明性確保のためのログ提供など、当局による基準整備が急務です。将来的には、否定を含む複雑な言語構造にも強いVLMが実現し、人とAIがより安全に協働できる環境が整うことが期待されます。

 【用語解説】

Vision-Language Models(VLM)
画像と言語を同時に処理し、両者の関連性を理解・推論する大規模AIモデル。CLIPやBLIPが代表例である。

NegBench
否定語を含む検索クエリに対するVLMの性能を評価するために構築されたベンチマーク。18種類のタスク、約79,000件の事例で評価できる。

再現率(Recall)
実際に該当する正解例のうち、モデルが正しく検出できた割合を示す指標。数値が高いほど見落としが少ない。

ファインチューニング(Fine-tuning)
事前学習済みモデルを特定タスク向けに追加学習し、性能を向上させる手法。少量のデータで適応可能。

合成キャプション(Synthetic Caption)
テキスト生成モデルなどでAIが自動生成した画像説明文。実データに不足する表現を補うために用いられる。

【参考リンク】


MIT News「Study shows vision-language models can’t handle queries with negation words」(外部)
AIやロボティクス分野の最新研究を伝えるマサチューセッツ工科大学公式ニュースサイト。


arXiv「Vision-Language Models Do Not Understand Negation」(外部)
NegBenchを含む本研究のプレプリント論文。タスク設定や実験結果の詳細を公開。


OpenAI(外部)
GPTやDALL·E、CLIPなどを開発するAI研究所・企業の公式サイト。


Hugging Face「openai/clip-vit-base-patch32」(外部)
OpenAIのCLIPモデル(ViT-B/32版)を公開。モデル仕様やコード例を掲載。


NegBench GitHub(外部)
NegBenchのデータセットと評価スクリプトを公開するリポジトリ。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

投稿者アバター
さつき
社会情勢とテクノロジーへの関心をもとに記事を書いていきます。AIとそれに関連する倫理課題について勉強中です。ギターをやっています!
ホーム » AI(人工知能) » AI(人工知能)ニュース » 視覚言語モデルは否定語を含むクエリを処理できない CLIPモデル|MIT NegBenchが明らかにしたVision-Language Modelsの課題と改善策