株式会社オルツ(東京都港区)は、2024年10月29日、軽量大規模言語モデル「LHTM-OPT」シリーズの最新バージョン「LHTM-OPT2(ラートム・オプト2)」をリリースした。
主な特徴と性能は以下の通り:
• RAG(検索拡張生成)精度評価において:
- WikipediaデータセットでGPT-4oと同等の精度(LHTM-OPT2:91.0%、GPT-4o:90.8%)を達成
- 東大入試国語科目のRAG関連質問でGPT-4oの94%の精度を達成
• 推論速度:
- 日本語推論で平均500TPS(トークン/秒)
- 最大速度796TPSを記録
• ベンチマーク評価:
- JGLUE(Japanese General Language Understanding Evaluation)
- Japanese MT-Benchにおいて、軽量型LLM(パラメータ数10B以下)として最高スコアを記録
評価には以下のデータセットを使用:
東京大学入学試験の国語科目データセット
オルツ独自開発のWiki RAGデータセット
from:オルツ、日本語RAG(検索拡張生成)で軽量型LLMとして世界最高の精度と推論速度を実現。新たに「LHTM-OPT2」をリリース
【編集部解説】
オルツが発表した「LHTM-OPT2」は、日本のAI開発における重要なマイルストーンとなる可能性を秘めています。この技術の特筆すべき点について、詳しく解説させていただきます。
まず注目すべきは、RAG(検索拡張生成)における精度の高さです。RAGとは、LLMが回答を生成する際に外部の知識ベースを参照する技術です。これまでの軽量モデルでは難しかった高精度なRAGを実現したことで、より信頼性の高い情報提供が可能になります。
特に、WikipediaデータセットでGPT-4oと同等の91.0%という精度を達成したことは、日本語処理における大きな進展といえます。これは、日本企業が独自に開発した言語モデルとしては画期的な成果です。
推論速度についても、平均500TPS(トークン/秒)という高速処理を実現しています。これは実用面で重要な進歩です。応答の遅さが実用化の障壁となっていた多くのユースケースにおいて、新たな可能性が開けるでしょう。
しかし、ここで注意すべき点があります。パラメータ数が10B以下の軽量モデルであるため、より大規模なモデルと比較すると、複雑な推論や創造的なタスクにおいては制限がある可能性があります。
また、実際の業務での活用においては、データのプライバシーやセキュリティの観点から、RAGシステムの適切な設計と運用が重要になってきます。
特に注目すべきは、この技術が日本企業のDX推進に与える影響です。小規模なGPUマシンでも実用的な性能を発揮できることから、中小企業でも導入しやすい特徴を持っています。
ただし、現時点では評価に使用されたデータセットが限定的であることから、より広範な実用シーンでの検証が待たれます。今後、実際のビジネスユースケースでの性能評価や、さまざまな産業での実証実験の結果に注目していく必要があるでしょう。