Last Updated on 2024-10-07 07:26 by admin
Cohere for AI、非営利の研究所であるCohereが2022年に設立したもので、2023年1月にAyaという101言語をサポートするオープンソースの大規模言語モデル(LLM)を発表した。このモデルは、既存のオープンソースモデルがカバーする言語数の2倍以上に及ぶ。また、Ayaプロジェクトには、人間のアノテーションを含むAyaデータセットもリリースされた。これは、一般的でない言語のトレーニングデータが少ないという障害を克服するための鍵となる。Cohere for AIのエンジニアは、少ないトレーニングデータでモデルの性能を向上させる方法も見つけ出したという。
Ayaプロジェクトは、世界中の3000人以上のコラボレーターと119カ国のチームや参加者を含む大規模な取り組みであった。このプロジェクトでは、5億1300万以上のインストラクションファインチューニングアノテーション(情報を分類するためのデータラベル)が使用された。Cohere for AIは、Ayaモデルの性能を既存のオープンソースの大規模多言語モデルと比較し、ベンチマークテストで「大幅に」性能が向上していることを確認した。これにより、ソマリ語やウズベク語など、以前はサービスされていなかった50以上の言語に対応を拡大した。
Cohere for AIによると、英語以外の言語でのファインチューニングデータは非常に稀であり、Ayaのデータは「非常に珍しい」とされる。このデータセットから選択された言語を使用して、言語のサブセットに対応するモデルを作成し、改善することが期待されている。また、Google DeepMindの研究者だったAleksa Gordicは、言語特有のLLM用のフルスタック生成AIプラットフォームを構築しており、セルビア語、ボスニア語、クロアチア語、モンテネグロ語でMistralやLlama 2を上回る性能を持つYugoGPTを開発したと述べている。
Cohere for AIのAyaモデルとデータセットは、Hugging Faceで既に利用可能である。
【ニュース解説】
Cohere for AI、非営利の研究所であるCohereが2022年に設立し、2023年1月にAyaという名前のオープンソースの大規模言語モデル(LLM)を発表しました。このモデルは101言語をサポートしており、既存のオープンソースモデルがカバーする言語数の2倍以上に及びます。Ayaプロジェクトは、世界中の3000人以上のコラボレーターと119カ国のチームや参加者による大規模な取り組みであり、5億1300万以上のインストラクションファインチューニングアノテーションが使用されました。このプロジェクトは、一般的でない言語のトレーニングデータが少ないという障害を克服するための鍵となる人間のアノテーションを含むAyaデータセットもリリースしました。
この取り組みの背景には、多くの先進的なモデルが主に英語やその他の主要言語に焦点を当てているため、多くの言語や文化が無視されているという問題があります。Ayaモデルは、これらの言語や文化に光を当て、研究者がこれまでほとんど注目されてこなかった言語のための大規模言語モデルの可能性を解き放つことを目指しています。特に、ソマリ語やウズベク語など、以前はサービスされていなかった50以上の言語に対応を拡大しました。
このプロジェクトの重要性は、英語以外の言語でのファインチューニングデータが非常に稀であるため、Ayaのデータが「非常に珍しい」とされる点にあります。これにより、研究者や開発者は、このデータセットから選択された言語を使用して、言語のサブセットに対応するモデルを作成し、改善することが可能になります。これは、特定の言語や文化を持つコミュニティに対して、よりパーソナライズされたAIサービスを提供するための大きな一歩となります。
しかし、このような取り組みには、高品質なデータソースの構築と維持に関する課題や、多言語モデルの開発における技術的な難しさが伴います。また、言語や文化の多様性を尊重し、偏見や誤解を生み出さないようにするための倫理的な配慮も必要です。さらに、これらのモデルが社会に与える影響を考慮し、適切な規制やガイドラインの策定が求められます。
長期的には、Ayaのようなプロジェクトが、言語の多様性を保護し、促進するための重要な役割を果たすことが期待されます。これにより、世界中の人々が自分たちの言語や文化をAI技術を通じて表現し、共有する機会が増えることでしょう。また、教育、医療、ビジネスなど、さまざまな分野でのアクセシビリティの向上にも寄与する可能性があります。
from Cohere for AI launches open source LLM for 101 languages.
“Ayaモデル革新:101言語をサポートし多様性を拡大” への1件のコメント
Cohere for AIがAyaという大規模言語モデルを開発したというニュースは、本当に興味深いですね。私自身、岐阜県の小さな町で育ち、ずっと地元で生活してきましたが、地元の言語や方言が大きなAIプロジェクトで取り上げられることはほとんどありません。このAyaプロジェクトが101言語に対応し、これまであまり注目されてこなかった言語や文化にも光を当てようとしていることは、大変素晴らしいことだと思います。これにより、多様な言語や文化を持つ人々が、テクノロジーの恩恵をより公平に享受できるようになるかもしれません。
特に、言語の種類が少ないという障害を克服しようとするAyaプロジェクトの試みは注目に値します。英語やその他の主要言語に比べて、多くの言語がデジタルの世界で見落とされがちです。これは、言語によって情報へのアクセスの機会が不平等になることを意味します。しかし、Ayaのようなプロジェクトが進められることで、この不平等を少しずつ解消できるかもしれません。
ただし、このような取り組みが成功するためには、高品質なデータソースの構築や維持、技術的な難しさ、そして言語や文化の多