2025年3月5日、研究チームが新しいオープンソースAIモデル「Light-R1-32B」を発表した。このモデルは高度な数学問題を解くために最適化されており、Hugging Face上でApache 2.0ライセンスの下で公開された。
Light-R1-32Bの主な特徴は以下の通り
- 320億のパラメータを持つ
米国招待数学試験(AIME)のベンチマークでDeepSeek-R1-Distill-Qwen-32Bを上回る性能を示す - AIME24で76.6点、AIME25で64.6点を達成
- Alibaba社のQwen 2.5-32B-Instructをベースに開発された
12台のNvidia H800 GPUを使用して6時間未満で訓練を完了
訓練コストは推定1000ドル
開発チームは、Liang Wen、Fenrui Xiao、Xin He、Yunke Caiらを含む14名の研究者で構成されている。
このモデルは、企業やAI開発者が自由に利用、展開、微調整、修正することができ、商業目的での使用も可能である。また、訓練データセット、訓練スクリプト、評価ツールも公開されている。
Light-R1-32Bの開発は、MicrosoftのOrca-Mathシリーズなど、他の企業による同様の取り組みに続くものである。
【編集部解説】
Light-R1-32Bモデルの登場は、AIの民主化と効率化に向けた大きな一歩と言えるでしょう。このモデルの特筆すべき点は、その性能と低コストの両立にあります。
まず、性能面では、Light-R1-32Bは米国招待数学試験(AIME)のベンチマークにおいて、DeepSeek-R1-Distill-Qwen-32Bを上回る結果を示しました。AIME24で76.6点、AIME25で64.6点を達成し、それぞれ72.6点と54.9点だったDeepSeekモデルを凌駕しています。
コスト面では、わずか1000ドルという驚異的な低コストで訓練を完了させました。12台のNVIDIA H800 GPUを使用し、6時間未満という短時間で訓練を行いました。これは、大規模なAIモデルの開発が、必ずしも莫大な資金を必要としないことを示しています。
Light-R1-32Bの開発アプローチには、いくつかの革新的な要素があります。カリキュラムベースの教師あり微調整(SFT)と直接選好最適化(DPO)を組み合わせることで、効率的に性能を向上させています。また、長い思考の連鎖(COT)推論を持たないモデルから訓練を始めているにもかかわらず、高度な数学的推論能力を獲得しています。
このモデルはApache 2.0ライセンスで公開されており、企業や研究者が自由に利用、改変できます。これにより、AIの応用範囲が大きく広がる可能性があります。特に、数学や科学の分野での問題解決や、教育支援ツールとしての活用が期待できるでしょう。