Sakana AIは2025年1月30日、新しい知識蒸留手法「TAID (Temporally Adaptive Interpolated Distillation)」と、この手法を用いて開発した小規模日本語言語モデル「TinySwallow-1.5B」を発表した。
主な技術的特徴
- 32Bパラメータの大規模言語モデルから1.5Bパラメータ(約1/20のサイズ)への知識転移を実現
- 小規模モデルの学習進度に応じて適応的に知識を転移
- 同規模の日本語モデルの中で最高性能を達成
- スマートフォンやPC単体で動作可能
開発チーム
- デビッド・ハ(CEO、元Google研究者)
- ライオン・ジョーンズ(CTO)
- 伊藤錬(COO、元外務官僚)
成果と評価
- ICLR 2025(機械学習分野の国際会議)に採択
- ブラウザ上で動作するデモアプリを公開
- オープンソースとして公開(GitHub)
- Hugging Faceでモデルを公開
from X
【編集部解説】
Sakana AIが開発したTAID(Temporally Adaptive Interpolated Distillation)は、AIの民主化に向けた重要な一歩となる可能性を秘めています。従来の知識蒸留技術と異なり、生徒モデルの学習進度に合わせて教師モデルを段階的に変化させる独自のアプローチを採用しています。
特筆すべきは、Qwen2.5-32B-Instructという320億パラメータの大規模モデルから、わずか15億パラメータの小規模モデルへの知識転移に成功した点です。これは、従来の常識を覆す約1/20という圧縮率を実現しています。
実用的な意義
TinySwallow-1.5Bの最も革新的な点は、iPhone 14のような一般的なスマートフォンでもオフライン動作が可能な点です。これにより、プライバシーを重視するユーザーでも、個人情報を外部に送信することなく高性能な言語モデルを利用できるようになります。
技術的特徴
TAIDの核心は「中間教師モデル」という概念にあります。生徒モデルの理解度に合わせて段階的に教師モデルを変化させることで、効率的な知識転移を実現しています。この手法により、従来の知識蒸留では困難だった大きな能力差の克服に成功しました。
今後の展望と課題
研究チームは、言語処理だけでなく視覚言語タスク向けのTAID-VLM-2Bも開発中です。これは、マルチモーダルAIの小型化にも本技術が応用できることを示唆しています。
一方で、商用利用や重要なシステムでの利用については現時点で制限が設けられており、信頼性や安定性の検証が今後の課題となっています。
産業への影響
この技術は、特に組み込みシステムやエッジデバイスでのAI活用に大きな可能性を開きます。医療機器やロボット、自動運転車など、リアルタイム処理が求められる分野での応用が期待されます。
また、開発コストの削減にも貢献し、スタートアップや中小企業でも高性能なAIシステムの開発が可能になると考えられます。
社会的インパクト
プライバシー保護とAI活用の両立という現代的な課題に対する一つの解決策となる可能性があります。オフライン処理が可能になることで、センシティブな情報を扱う現場でもAIの活用が進むことが期待されます。