Qwen2-VL:アリババの新AIモデルが20分超の動画分析を実現 – 視覚言語AIの新時代到来

[更新]2024年8月30日07:28

Qwen2-VL:アリババの新AIモデルが20分超の動画分析を実現 - 視覚言語AIの新時代到来 - innovaTopia - (イノベトピア)

アリババクラウドは2024年8月29日、新しい大規模言語モデル「Qwen2-VL」を発表した。Qwen2-VLは、20分以上の長さの動画を分析できる機能を持つ視覚言語モデルだ。

主な特徴は以下の通り:

  1. 画像内の複雑な情報を正確に記述・識別する能力が向上
  2. 100万ピクセル以上の高解像度画像や様々なアスペクト比の画像に対応
  3. OpenAIのGPT-4VやGoogleのGeminiと同等以上の性能を複数のタスクで発揮
  4. 中国語の質問応答や文章理解タスクではGPT-4VとGeminiを上回る性能を示す

Qwen2-VLは、Qwen-VL-PlusとQwen-VL-Maxの2つのバージョンがリリースされた。これらは、2023年9月にオープンソース化されたQwen-VLの大幅なアップグレード版となる。

アリババクラウドは、Qwen2-VLの重みをHugging FaceやModelScopeで公開し、GitHub上で補足資料やサンプルコードも提供している。これにより、幅広いアプリケーションや研究での活用が期待される。

from:Alibaba releases new AI model Qwen2-VL that can analyze videos more than 20 minutes long

【編集部解説】

アリババクラウドが発表した新しい大規模言語モデル「Qwen2-VL」は、画像と言語を組み合わせた高度な理解能力を持つAIモデルです。この発表は、AIの視覚認識と言語処理の融合において大きな進歩を示しています。

Qwen2-VLの最も注目すべき特徴は、20分以上の長い動画を分析できる能力です。これは、従来のモデルが短い動画や静止画に限られていたのに比べ、大きな飛躍と言えるでしょう。この機能により、長編コンテンツの自動要約や詳細な分析が可能になり、メディア産業や教育分野に革新をもたらす可能性があります。

また、Qwen2-VLは100万ピクセル以上の高解像度画像や様々なアスペクト比の画像に対応できるようになりました。これにより、医療画像の分析や衛星写真の解析など、高精細な画像を扱う専門分野での応用が期待されます。

特筆すべきは、中国語の質問応答や文章理解タスクでGPT-4VやGeminiを上回る性能を示したことです。これは、多言語対応のAIモデル開発において、言語の壁を越えた進歩を示唆しています。

【用語解説】

  1. 視覚言語モデル (Vision Language Model, VLM):
    画像と言語を同時に理解・処理できるAIモデルです。人間が目で見て言葉で説明するように、AIが画像を「見て」テキストで説明したり、質問に答えたりできます。
  2. マルチモーダル:
    複数の情報形式(テキスト、画像、音声など)を同時に扱う能力のことです。例えるなら、人間が目で見て、耳で聞いて、総合的に状況を理解するようなものです。

【参考リンク】

  1. Alibaba Cloud (アリババクラウド)(外部)
    アリババグループが提供するクラウドコンピューティングサービス。Qwenシリーズの開発元。
  2. Hugging Face(外部)
    AIモデルやデータセットを共有・利用できるプラットフォーム。Qwen-VLモデルも公開されている。
  3. ModelScope(外部)
    アリババが運営するAIモデルのプラットフォーム。Qwenシリーズも利用可能。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…
advertisements
読み込み中…