Last Updated on 2024-02-01 12:51 by 荒木 啓介
from The Best Kept Secret About LLMs.
LLM(大規模言語モデル)に関する最も知られざる秘密について、Vincent Granville氏がDataScienceCentral.comで記事を公開しました。LLMは記事の執筆や要約、チャットボットとしての利用が知られていますが、情報検索においてGoogle検索のより良い代替手段としても人気があります。しかし、LLMの背後には、入力データの収集と整理という古い技術があり、エンベディングの品質はこれに大きく依存しています。Granville氏は、このコンポーネントに焦点を当て、開発者や技術的背景を持つ専門家にとって興味深い高レベルの要約を提供しています。
彼は、GPTが特定の問題に対する正しい情報源にアクセスできるものの、不適切な情報と混合して誤った回答を生成することがあると指摘しています。また、GPTが情報源を明かさないため、正しい答えを見つけるのが困難であると述べています。Granville氏は、高品質な情報源を使用することが良い回答を提供する鍵であり、特化したLLMは優れた分類体系を持つべきだと主張しています。
彼は自身の問題を解決するために、数百万ページのウェブページをクロールし、ニューラルネットワークを使用せずに、高品質な分類体系とキーワード相関表を作成する方法を説明しています。彼は、Wolframのようなよく構造化されたウェブサイトからクロールを開始し、ArXiv、Wikipedia、Google Scholar、Stack Exchangeなどの他の場所を選択的にクロールする予定です。彼の目標は、英語の散文ではなくリンクを返すことです。
Vincent Granville氏は、GenAI科学者であり、Data Science Centralの共同創設者、MLTechniques.comとGenAItechLab.comのチーフAIサイエンティスト、著者、特許所有者です。彼は、Visa、Wells Fargo、eBay、NBC、Microsoft、CNETでの企業経験があり、ケンブリッジ大学と国立統計科学研究所(NISS)でポスドクを務めました。彼は、AI、データサイエンス、機械学習に関する専門家による簡潔な英語で書かれた新しい資料(コンパクトな電子書籍)をData Science Centralのメンバーに提供しています。