Last Updated on 2024-06-29 16:27 by admin
LMSYSは、AIモデルの視覚関連タスクのパフォーマンスを比較する新しいリーダーボード「Multimodal Arena」を立ち上げた。
このアリーナは2週間で60以上の言語にわたり17,000件以上のユーザーの好みの投票を集めた。OpenAIのGPT-4oモデルがトップの位置を確保し、AnthropicのClaude 3.5 SonnetとGoogleのGemini 1.5 Proがそれに続いた。
オープンソースモデルのLLaVA-v1.6-34Bは、一部の独自モデルと同等のスコアを達成し、先進的なAI能力の民主化の可能性を示唆している。リーダーボードは、画像キャプション作成から数学問題解決、文書理解、ミーム解釈まで、多様なタスクを網羅している。
しかし、最近導入されたプリンストン大学の研究者によって開発されたCharXivベンチマークは、AIが科学論文のチャートを理解する能力を評価し、GPT-4oモデルが47.1%の精度を達成した一方で、最高のオープンソースモデルは29.2%の精度に留まり、人間のパフォーマンス80.5%と比較して大きなギャップがあることを明らかにした。
これは、AIが物体認識や基本的な画像キャプション作成などのタスクでは進歩しているものの、人間が視覚情報に対して適用する微妙な推論と文脈理解に苦戦していることを示している。
Multimodal Arenaの立ち上げとCharXivなどのベンチマークからの洞察は、AI業界にとって重要な時期に行われた。これらのベンチマークは、AIの能力に関するしばしば誇張された主張を和らげ、研究者に対して人間レベルの視覚理解を達成するために改善が必要な特定の領域を強調する。
AIと人間のパフォーマンスのギャップは、AIアーキテクチャやトレーニング方法における重要なブレークスルーが必要であることを示唆している。同時に、コンピュータビジョン、自然言語処理、認知科学などの分野での革新の可能性を開く。
【編集者追記】
- Multimodal Arena:
複数のAIモデルの視覚処理能力を様々なタスクで比較評価するオンラインプラットフォームです。「マルチモーダル」とは、テキストと画像など複数の情報形式を扱う能力を指します。 - LMSYS(Large Model Systems Organization):
カリフォルニア大学バークレー校の研究者グループで、大規模言語モデルの研究と評価を行っています。 - GPT-4V:
OpenAI社が開発した最新の大規模言語モデルで、テキストだけでなく画像も理解・処理できる能力を持っています。 - Claude 3.5 Sonnet:
Anthropic社が開発したAIモデルで、高度な言語理解と生成能力を持ちます。 - Gemini 1.5 Pro:
Google社が開発したマルチモーダルAIモデルで、テキスト、画像、音声などを統合的に処理できます。 - LLaVA-v1.6-34B:
オープンソースのマルチモーダルAIモデルで、商用モデルに匹敵する性能を持つことで注目されています。 - CharXivベンチマーク:
プリンストン大学の研究者が開発した、AIモデルの科学論文のチャート理解能力を評価するテスト基準です。
【参考リンク】
LMSYS (Large Model Systems Organization)(外部)
【関連記事】
AI(人工知能)ニュースをinnovaTopiaでもっと読む
【ニュース解説】
LMSYSが新たに立ち上げた「Multimodal Arena」は、AIモデルの視覚関連タスクの性能を比較するためのリーダーボードです。このプラットフォームは、60以上の言語にわたり2週間で17,000件以上のユーザー投票を集め、AIの視覚処理能力の現状を示しています。OpenAIのGPT-4oモデルがトップに輝き、AnthropicのClaude 3.5 Sonnet、GoogleのGemini 1.5 Proがそれに続く結果となりました。また、オープンソースモデルのLLaVA-v1.6-34Bが一部の独自モデルと同等のスコアを達成し、AI技術の民主化の可能性を示唆しています。
リーダーボードは、画像キャプション作成から数学問題解決、文書理解、ミーム解釈まで、多様なタスクを網羅しています。これにより、各モデルの視覚処理能力を総合的に評価することが可能になります。
しかし、プリンストン大学の研究者によって開発されたCharXivベンチマークによると、AIは科学論文のチャートを理解するという複雑な視覚タスクにおいて依然として苦戦しています。GPT-4oモデルは47.1%の精度を達成したものの、人間のパフォーマンス80.5%には大きく及ばず、AIの視覚理解能力にはまだ大きなギャップが存在することが明らかになりました。
このギャップは、AIが物体認識や基本的な画像キャプション作成などのタスクでは進歩しているものの、人間が自然に行う微妙な推論や文脈理解にはまだ追いついていないことを示しています。これは、AI開発における重要な課題であり、AIアーキテクチャやトレーニング方法における革新が必要であることを示唆しています。
このような課題にもかかわらず、Multimodal Arenaの立ち上げやCharXivなどのベンチマークからの洞察は、AI業界にとって重要な意味を持ちます。これらは、AIの能力に関する過剰な主張を和らげ、人間レベルの視覚理解を達成するために必要な改善点を明らかにするものです。また、コンピュータビジョン、自然言語処理、認知科学などの分野での革新の可能性を示唆しており、AIと人間のパフォーマンスのギャップを埋めるための研究に新たな焦点を当てることが期待されます。AIが真に視覚世界を理解し、人間のように複雑な視覚タスクをこなせる日はまだ先ですが、この分野の進歩は引き続き注目されるでしょう。
from LMSYS launches ‘Multimodal Arena’: GPT-4 tops leaderboard, but AI still can’t out-see humans.