Last Updated on 2023-12-23 20:20 by
from How LLMs made their way into the modern data stack in 2023.
2023年における大規模言語モデル(LLMs)のデータスタックへの統合
ChatGPTが登場してから1年以上が経過し、インターネットユーザーはいつでも利用可能なAIアシスタントを手に入れました。これにより、エッセイの作成から複雑な情報のレビュー・分析まで、日常的なタスクを処理することが可能になりました。このチャットボットの急速な普及により、その中核技術であるGPTシリーズのLLMsに世界が注目しました。現在では、GPTシリーズを含むLLMsは、個々のタスクだけでなく、大規模なビジネスオペレーションの推進力となっています。企業は商用モデルのAPIやオープンソースの提供を活用して、繰り返し行われるタスクを自動化し、主要機能を効率化しています。例えば、AIと対話してマーケティングチームの広告キャンペーンを生成したり、適切なデータベースをタイミングよく提供することでカスタマーサポートを加速させることが可能です。
しかし、LLMsの役割があまり議論されていない分野が、現代のデータスタックです。データは高性能な大規模言語モデルにとって鍵となります。これらのモデルが適切にトレーニングされると、データの実験や複雑な分析を行う際にチームを支援することができます。過去1年間で、ChatGPTや競合するツールが成長するにつれて、ビジネスにデータツールを提供する企業は、顧客がデータをより簡単に扱えるように、そして時間とリソースを節約できるように、生成AIをワークフローに組み込んでいます。
LLMsによる最初で最も重要な変化は、会話型クエリ機能の登場でした。これにより、複雑なSQLクエリを書く手間を省き、技術的でないユーザーを含むチームが自然言語のプロンプトを入力してデータから洞察を得ることができるようになりました。Databricks、Snowflake、Dremio、Kinetica、ThoughtSpotなど、多くのベンダーがこの機能を導入しています。
データ管理とAI努力を支援するために、LLMsは従来の手動データ管理や、堅牢なAI製品の構築に不可欠なデータ努力も処理しています。例えば、InformaticaはIDMCデータアセットを自然言語入力で発見、対話、管理するための多LLMベースの会話型AIツールであるClaire GPTを導入しました。また、Refuel AIはデータラベリングとエンリッチメントタスクに役立つ専用の大規模言語モデルを提供しています。
LLMsはデータ統合やオーケストレーションなどのデータエンジニアリングの他の分野でも活用されています。これらのモデルは、異なるデータタイプを共通の形式に変換したり、異なるデータソースに接続したり、Airflow DAGを構築するためのYAMLやPythonコードテンプレートをクエリするために必要なコードを生成することができます。
LLMsが波を立て始めてからわずか1年で、企業領域で多くの変化が見られます。これらのモデルが2024年に向けて改善され、チームが革新を続けるにつれて、データスタックのさまざまな領域で言語モデルのさらなる応用が見られるでしょう。ただし、これらの応用が出現するにつれて、チームがこれらの言語モデルが正確に機能していることを確認することがこれまで以上に重要になります。わずかなエラーが下流の結果に影響を与え、顧客体験を損なう可能性があります。