Kneronは、台湾で開催されたComputexカンファレンスにおいて、エッジAI推論およびファインチューニングを進展させるための次世代シリコンおよびサーバ技術について詳細を発表した。2015年に設立されたKneronは、QualcommやSequoia Capitalを含む投資家を持ち、GPUの世界的不足に対処するためにKL730 NPUを発表した。現在、Kneronは次世代KL830を展開し、2025年にデビュー予定のKL 1140についても紹介している。さらに、Kneronはオフライン推論機能を可能にするKNEO 330 Edge GPTサーバを含むAIサーバポートフォリオを拡大している。
Kneronの更新の焦点は、プライベートGPTサーバをオンプレミスで実行できるようにすることである。KNEO 330システムは、複数のKL830エッジAIチップを統合し、小型フォームファクタサーバである。このシステムは、企業が手頃な価格でオンプレミスGPTデプロイメントを実現できるようにする。KL830チップは、言語モデル用に特別に設計されており、低消費電力を維持しながら大きなモデルをサポートするためにカスケード接続が可能である。
Kneronは、同社のハードウェア上で実行されるモデルのトレーニングとファインチューニングのための複数の機能を提供している。Kneronは、複数のオープンモデルを組み合わせてNPUs上で実行するためにファインチューニングしている。また、Kneronは、トレーニングされたモデルをKneronチップ上で使用するためにコンパイルするニューラルコンパイラもサポートしている。
Kneronの技術の主な特徴は、低消費電力である。新しいKL830は、ピーク消費電力がわずか2ワットでありながら、10eTOPS@8bitの計算能力を提供する。この低消費電力により、Kneronのチップは追加の冷却ソリューションなしで様々なデバイスに統合できる。
【ニュース解説】
台湾で開催されたComputexカンファレンスにおいて、KneronはエッジAIの推論とファインチューニングを進化させるための次世代シリコンとサーバ技術について発表しました。この技術は、GPUの世界的不足に対応するために開発されたもので、特に注目されるのは、オフラインでの推論機能を持つKNEO 330 Edge GPTサーバです。このサーバは、企業がクラウドに依存せずに、オンプレミスでプライベートGPTサーバを実行できるようにすることを目指しています。
Kneronの技術の中心となるのは、低消費電力で高性能なNPU(ニューラルプロセッシングユニット)です。新しいKL830チップは、言語モデル専用に設計されており、低消費電力を維持しながらも大規模なモデルをサポートすることが可能です。これにより、企業はエネルギー効率の良い方法でAIモデルを運用できるようになります。
また、Kneronはハードウェアだけでなく、ソフトウェアの開発にも力を入れています。同社は、複数のオープンモデルを組み合わせてNPUs上で実行するためにファインチューニングする技術を提供しており、トレーニングされたモデルをKneronチップ上で使用するためにコンパイルするニューラルコンパイラもサポートしています。これにより、開発者はより柔軟にAIモデルをカスタマイズし、効率的に運用することが可能になります。
Kneronの技術がもたらすポジティブな側面は、エネルギー効率の良いAI運用による環境への負荷の軽減や、オンプレミスでのプライベートGPTサーバの実現によるデータプライバシーの強化です。一方で、この技術の普及には、既存のAIインフラとの互換性や、新しい技術への移行に伴うコストなど、潜在的な課題も存在します。
長期的な視点では、Kneronのような技術がAIのエッジコンピューティングを大きく前進させる可能性があります。これにより、AIの応用範囲が拡大し、より多くのデバイスでリアルタイムでの高度なAI処理が可能になることが期待されます。また、低消費電力での運用が可能になることで、AI技術の持続可能性も向上するでしょう。しかし、これらの進歩を実現するためには、技術的なハードルの克服だけでなく、規制や倫理的な問題に対する考慮も必要となります。
from Kneron advances edge AI with neural processing unit and Edge GPT server updates.