プリンストン大学の研究者たちは、AIエージェントのベンチマークと評価方法にいくつかの問題があると指摘しています。
これらの問題は、実世界での応用においてその有用性を妨げる可能性があります。
AIエージェントは、大規模言語モデル(LLMs)や視覚言語モデル(VLMs)などの基盤モデルを使用して、自然言語の指示に従い、複雑な目標を自律的または半自律的に追求します。
しかし、エージェントの評価におけるコスト管理の欠如や、研究目的と実用アプリケーション開発の評価の違い、学習タスクにおけるオーバーフィッティングの問題などが存在します。
研究者たちは、エージェントの評価結果を精度と推論コストのパレート曲線として視覚化し、これら二つの指標に対してエージェントを共同で最適化する技術の使用を提案しています。
彼らは、異なるプロンプト技術とエージェントパターンの精度とコストのトレードオフを評価し、類似の精度であってもコストが約2桁異なることを発見しました。また、エージェントの設計を最適化することで変動費を削減し、精度を維持しながらコストを削減することが可能であると述べています。
さらに、モデルの評価と実用アプリケーションの開発の違いについても指摘しています。実世界のアプリケーション開発では、推論コストが重要な役割を果たし、異なるモデル提供者が同じモデルに対して異なる料金を請求することや、API呼び出しのコストが変動することが挑戦となります。
オーバーフィッティングに関しては、機械学習モデルがベンチマークテストで高得点を出すための近道を見つけることが問題とされています。
研究者たちは、エージェントベンチマークにおいてオーバーフィッティングが深刻な問題であるとし、ベンチマーク開発者に対して、トレーニング中に記憶できないような例からなるホールドアウトテストセットを作成し、秘密にすることを提案しています。
この研究は、AIエージェントのベンチマークが新しい分野であり、実際のアプリケーションにおけるこれらの新しいシステムの限界をテストする方法について、研究者や開発者がまだ多くを学んでいることを示しています。ベンチマークの実践がまだ確立されておらず、実際の進歩とハイプを区別することが難しいと結論付けています。
【編集者追記】用語解説
- AIエージェント:
人工知能(AI)を搭載したソフトウェアやシステムで、与えられたタスクを自律的に実行する能力を持ちます。人間の指示を待つのではなく、自ら状況を判断し、適切な行動を取ることができます。 - プリンストン大学:
アメリカ合衆国ニュージャージー州プリンストンにある世界的に有名な私立大学です。コンピューターサイエンスや人工知能の研究で高い評価を受けています。
【参考リンク】
プリンストン大学 AI & ML 研究グループ(外部)
【関連記事】
AI(人工知能)ニュースをinnovaTopiaでもっと読む
【ニュース解説】
プリンストン大学の研究者たちが、AIエージェントのベンチマークと評価方法に関する新たな研究を発表しました。この研究では、現在のベンチマークと評価方法が実世界での応用においてAIエージェントの有用性を正確に反映していないという問題点を指摘しています。AIエージェントは、大規模言語モデル(LLMs)や視覚言語モデル(VLMs)などの基盤モデルを使用して、自然言語の指示に従って複雑な目標を自律的または半自律的に追求する技術です。
研究者たちは、エージェントの評価におけるコスト管理の欠如、研究目的と実用アプリケーション開発の評価の違い、そして学習タスクにおけるオーバーフィッティングの問題を特に強調しています。彼らは、精度と推論コストのバランスを取るために、エージェントを共同で最適化する技術の使用を提案しています。このアプローチにより、類似の精度を持ちながらも、コストを大幅に削減することが可能になると述べています。
また、実世界のアプリケーション開発においては、推論コストが重要な役割を果たすことを指摘しています。異なるモデル提供者が同じモデルに対して異なる料金を請求することや、API呼び出しのコストが変動することが、開発者にとっての挑戦となります。
オーバーフィッティングに関しては、機械学習モデルがベンチマークテストで高得点を出すための近道を見つけることが問題とされています。研究者たちは、エージェントベンチマークにおいてオーバーフィッティングが深刻な問題であるとし、ベンチマーク開発者に対して、トレーニング中に記憶できないような例からなるホールドアウトテストセットを作成し、秘密にすることを提案しています。
この研究は、AIエージェントのベンチマークが新しい分野であり、実際のアプリケーションにおけるこれらの新しいシステムの限界をテストする方法について、研究者や開発者がまだ多くを学んでいることを示しています。ベンチマークの実践がまだ確立されておらず、実際の進歩とハイプを区別することが難しいと結論付けています。この研究は、AIエージェントの開発と評価における新たな方向性を示唆しており、より実用的でコスト効率の良いAIエージェントの開発に向けた一歩となるでしょう。