Last Updated on 2024-08-30 07:28 by admin
アリババクラウドは2024年8月29日、新しい大規模言語モデル「Qwen2-VL」を発表した。Qwen2-VLは、20分以上の長さの動画を分析できる機能を持つ視覚言語モデルだ。
主な特徴は以下の通り:
- 画像内の複雑な情報を正確に記述・識別する能力が向上
- 100万ピクセル以上の高解像度画像や様々なアスペクト比の画像に対応
- OpenAIのGPT-4VやGoogleのGeminiと同等以上の性能を複数のタスクで発揮
- 中国語の質問応答や文章理解タスクではGPT-4VとGeminiを上回る性能を示す
Qwen2-VLは、Qwen-VL-PlusとQwen-VL-Maxの2つのバージョンがリリースされた。これらは、2023年9月にオープンソース化されたQwen-VLの大幅なアップグレード版となる。
アリババクラウドは、Qwen2-VLの重みをHugging FaceやModelScopeで公開し、GitHub上で補足資料やサンプルコードも提供している。これにより、幅広いアプリケーションや研究での活用が期待される。
from:Alibaba releases new AI model Qwen2-VL that can analyze videos more than 20 minutes long
【編集部解説】
アリババクラウドが発表した新しい大規模言語モデル「Qwen2-VL」は、画像と言語を組み合わせた高度な理解能力を持つAIモデルです。この発表は、AIの視覚認識と言語処理の融合において大きな進歩を示しています。
Qwen2-VLの最も注目すべき特徴は、20分以上の長い動画を分析できる能力です。これは、従来のモデルが短い動画や静止画に限られていたのに比べ、大きな飛躍と言えるでしょう。この機能により、長編コンテンツの自動要約や詳細な分析が可能になり、メディア産業や教育分野に革新をもたらす可能性があります。
また、Qwen2-VLは100万ピクセル以上の高解像度画像や様々なアスペクト比の画像に対応できるようになりました。これにより、医療画像の分析や衛星写真の解析など、高精細な画像を扱う専門分野での応用が期待されます。
特筆すべきは、中国語の質問応答や文章理解タスクでGPT-4VやGeminiを上回る性能を示したことです。これは、多言語対応のAIモデル開発において、言語の壁を越えた進歩を示唆しています。