Last Updated on 2024-07-05 08:46 by admin
MicrosoftとBeihang Universityの研究者たちは、大規模言語モデル(LLM)を効率的に微調整する新技術「MoRA」を発表した。MoRAは、従来の微調整技術である低ランク適応(LoRA)の限界を克服する、パラメータ効率の良い微調整(PEFT)技術である。この技術は、モデルが新しい知識を獲得する必要があるタスクの微調整に特に有用である。
PEFT技術は、LLMを下流アプリケーションに微調整する際に、すべてのパラメータを更新する必要がないという前提に基づいている。MoRAは、低ランク行列を使用するLoRAとは異なり、正方行列を使用して微調整を行う。この正方行列を使用することで、MoRAはLoRAよりも新しい知識を学習する能力が高いとされる。
MoRAとLoRAのモデルを同じサイズで比較した結果、MoRAは記憶タスクでLoRAを大幅に上回り、完全な微調整モデルに近い性能を少ないパラメータと訓練ステップで実現した。また、継続的な事前学習タスクでは、MoRAはLoRAよりも優れた性能を示し、新しい知識を記憶する能力の高さを利用した。
企業向けのLLMアプリケーションにおいて、微調整は重要な使用例である。MicrosoftとBeihangの研究者は、MoRAのオープンソース実装をリリースし、LoRAと互換性がある。これにより、基本モデルに新しい知識を追加したい企業アプリケーションにとって重要なツールとなる可能性がある。
【ニュース解説】
MicrosoftとBeihang Universityの研究者たちが開発した「MoRA」とは、大規模言語モデル(LLM)を効率的に微調整するための新しい技術です。この技術は、特にモデルが新しい知識を獲得する必要があるタスクにおいて、従来の微調整技術である低ランク適応(LoRA)の限界を克服することを目的としています。
大規模言語モデルの微調整は、モデルを特定のタスクやデータセットに合わせて調整するプロセスです。しかし、これらのモデルは数十億ものパラメータを持つことがあり、全てのパラメータを更新することは計算コストが非常に高くなります。そこで、パラメータ効率の良い微調整(PEFT)技術が注目されており、その中でもLoRAは低ランク行列を用いることで、メモリ要件を削減し、微調整モデルの保存と展開を容易にするという利点がありました。
しかし、LoRAは新しい知識を効果的に学習し記憶する能力に限界があることが指摘されています。これに対し、MoRAは正方行列を使用することで、より高いランクの更新を可能にし、新しい知識の学習と記憶においてLoRAを上回る性能を示しました。具体的には、記憶タスクでの性能が大幅に向上し、継続的な事前学習タスクでは、特に生物医学や金融の分野でLoRAよりも優れた結果を出しました。
この技術の導入により、企業は従来よりも少ないコストで、自社の知識をモデルに追加することが可能になります。これは、特にカスタマイズされたモデルを多数必要とするアプリケーションや、特定のユーザーのコンテンツに基づいてモデルをカスタマイズする場合に大きなメリットをもたらします。
しかし、MoRAの導入にはいくつかの潜在的な課題も存在します。例えば、正方行列を使用することで、LoRAに比べてトレーニングやストレージのコストが増加する可能性があります。また、この技術がどの程度の範囲で適用可能か、また特定のタスクにおける性能の限界についても、さらなる研究が必要です。
長期的な視点では、MoRAのようなPEFT技術の発展は、AIのカスタマイズと効率化を大きく進めることができるでしょう。これにより、より多くの企業がAIを活用したサービスを提供できるようになり、AI技術の普及と発展が加速される可能性があります。同時に、これらの技術の進化は、AIの倫理的な使用やバイアスの問題、プライバシー保護など、新たな規制やガイドラインの必要性をもたらすかもしれません。
from Microsoft, Beihang release MoRA, an efficient LLM fine-tuning technique.