現在、生成AIの基盤モデルに基づくソリューションの開発が進んでいる。これまでのアプリケーションは大規模言語モデル(LLM)を使用していたが、最近では画像やビデオを理解し生成できるマルチモーダルモデルの登場により、基盤モデル(FM)という用語がより適切になっている。これらのモデルは、言葉、画像、数字、音をトークンに変換し、次に最適なトークンを予測することで機能する。FMの理解が深まるにつれて、生成AIコミュニティはモデルが効果的に応答するための「プロンプトエンジニアリング」技術を開発した。
生成AI 1.5では、LLMが処理できる情報量を拡大することが進展の基盤となっている。最先端のモデルは現在、最大100万トークンを処理でき、これによりユーザーは以前には不可能だった方法で質問に答えるためのコンテキストを制御できるようになった。また、LLMを利用して類似のテキストを概念に基づいて検索し取得する技術の開発が進んでいる。これらのシステムは、1億ページ以上のドキュメントをスケールしながら性能の低下を限定的に抑えることに成功している。
次の進化である生成AI 2.0では、複数の生成AI機能を創造的に連鎖させることが目指されている。エージェントベースのシステムは、データ収集、推論、行動取りのコンポーネントを分離することで、より柔軟なソリューションセットを可能にし、より複雑なタスクを実現可能にする。しかし、これらのシステムは大量のLLMコールを必要とし、コストの最適化が課題となる。そのため、LLMの最適化技術の並行開発が続けられている。
組織が今後1年間でLLMの使用を成熟させるにつれて、最高品質の出力を最速かつ最低コストで得ることが目標となる。これは変化し続ける目標であるため、実際の経験から学び、生成AI支援ソリューションの運用と最適化を続けるパートナーを見つけることが最善である。
【編集者追記】用語解説
トークン:言語モデルが文章を処理する際の最小単位。単語や文字、記号などを数値化したもの。
基盤モデル(Foundation Model):大規模なデータセットを用いて広範な汎用的なタスクに対してトレーニングされたAIモデルを指す。このモデルは、特定のタスクに適用する前の基礎となるモデルであり、その後の微調整やカスタマイズによって特定の用途に合わせて最適化される。
特徴
1. 大規模データセット: 膨大な量のデータでトレーニングされているため、様々な状況に対応できる。
2. 多用途性: 特定のタスクに限定されず、多くの異なるタスクに適用可能。
3. 微調整可能: 基盤モデルをベースにして、特定のアプリケーションやドメインに合わせて追加のトレーニングを行うことで、高いパフォーマンスを発揮する。
4. 事前学習: 通常は自己教師あり学習や半教師あり学習などの手法を用いて事前学習される。
【参考リンク】
- OpenAI (GPT-4)(外部)
【関連記事】
【ニュース解説】
生成AIの技術は、大規模言語モデル(LLM)を使用した初期の段階から、画像やビデオを理解し生成できるマルチモーダルモデルへと進化しています。これらの基盤モデル(FM)は、言葉、画像、数字、音などをトークンに変換し、次に最適なトークンを予測することで機能します。この進化により、生成AIコミュニティは、モデルがより効果的に応答するための「プロンプトエンジニアリング」技術を開発しました。
生成AI 1.5の段階では、LLMが処理できる情報量の拡大が進み、最先端のモデルは最大100万トークンを処理できるようになりました。これにより、ユーザーは複雑な法律、医療、科学テキストに対して質問をする際に、以前には不可能だったコンテキストを提供できるようになりました。さらに、LLMを利用して類似のテキストを概念に基づいて検索し取得する技術が進展し、これらのシステムは1億ページ以上のドキュメントをスケールしながら性能の低下を限定的に抑えることに成功しています。
生成AI 2.0への次の進化では、複数の生成AI機能を創造的に連鎖させることが目指されています。エージェントベースのシステムは、データ収集、推論、行動取りの各コンポーネントを分離することで、より柔軟なソリューションセットを可能にし、より複雑なタスクを実現可能にします。これらのシステムは、複数のステップを自動的に実行することで、人間の介入を必要とすることなく、知識生成プロセスを実行できます。
しかし、これらのシステムは大量のLLMコールを必要とし、コストの最適化が大きな課題となります。そのため、ハードウェア、フレームワーク、クラウド、モデルの最適化技術の並行開発が続けられています。組織がLLMの使用を成熟させるにつれて、最高品質の出力を最速かつ最低コストで得ることが目標となります。これは変化し続ける目標であり、実際の経験から学び、生成AI支援ソリューションの運用と最適化を続けるパートナーを見つけることが重要です。
この技術の進化は、医療、法律、教育など多岐にわたる分野での応用可能性を広げています。例えば、医療分野では、患者の電子健康記録、画像データ、遺伝データなどから最適な治療法を提案するエージェントシステムの開発が進んでいます。しかし、これらの技術の進化と普及には、コストの最適化、セキュリティ、プライバシー保護など、解決すべき課題も多く存在します。また、これらのAIシステムの倫理的な使用に関する規制やガイドラインの整備も、今後の重要な課題となるでしょう。
from From gen AI 1.5 to 2.0: Moving from RAG to agent systems.