Last Updated on 2025-06-30 08:27 by admin
ITコンサルタント会社ガートナーは、エージェント型AIプロジェクトの40%以上が2027年末までにキャンセルされると予測した。
カーネギーメロン大学(CMU)とセールスフォースの研究者が測定したAIエージェントの複数ステップタスクの成功完了率は30~35%である。
CMUの研究者は「TheAgentCompany」というベンチマークを開発し、13のAIモデルをテストした結果、最高性能のGemini 2.5 Proでも30.3%のタスクしか完了できなかった。
テスト対象にはClaude-3.5-Sonnet(24%)、GPT-4o(8.6%)、Llama-3.1-405b(7.4%)などが含まれる。セールスフォースの研究者は「CRMArena-Pro」ベンチマークを発表し、主要なAIエージェントの単一ターンシナリオでの成功率は58%、複数ターン設定では35%まで低下することを明らかにした。
ガートナーは数千のエージェント型AIベンダーのうち本物は約130社のみと推定している。
From: AI agents get office tasks wrong around 70% of the time, and a lot of them aren’t AI at all
【編集部解説】
今回のニュースは、AIエージェントの実用性に関する現実的な評価を示す重要な調査結果です。複数の独立した研究機関とコンサルティング会社が同時期に発表した結果が一致していることから、信頼性の高いデータと考えられます。
AIエージェントとは何か
AIエージェントとは、単純な質問応答を超えて、複数のアプリケーションやAPIサービスを連携させながら複雑なタスクを自律的に実行するAIシステムのことです。例えば「特定の条件に合うメールを検索し、送信者の背景を調査して報告書を作成する」といった、従来は人間が複数のステップを踏んで行っていた業務を一連の流れで処理できる能力を持ちます。
なぜ70%も失敗するのか
研究結果が示す高い失敗率の背景には、現在のAI技術の根本的な限界があります。AIエージェントは単一のタスクでは高い性能を発揮しますが、複数のアプリケーション間での情報の受け渡しや、予期しないUI要素(ポップアップウィンドウなど)への対応、長期的な文脈の維持などで躓くケースが頻発しています。
特に注目すべきは、技術的なタスク(プログラミングなど)よりも、一見簡単に見える事務作業の方が失敗率が高いという逆説的な結果です。これは、事務作業が実際には高度な文脈理解と柔軟な判断力を要求することを示しています。
「エージェントウォッシング」という問題
ガートナーが指摘する「エージェントウォッシング」は、AI業界の深刻な問題を浮き彫りにしています。数千社のベンダーのうち、真のエージェント機能を持つのはわずか130社程度という現実は、市場の過熱ぶりと技術的な実態との乖離を物語っています。
企業への実際の影響
この調査結果は、AIエージェントの導入を検討している企業にとって重要な警鐘となります。特にセキュリティ面では、エージェントが機密情報にアクセスする必要がある一方で、「ほぼゼロの機密性認識」しか持たないという致命的な問題が明らかになりました。
ポジティブな側面と将来性
一方で、完全に悲観的な結果ではありません。ワークフロー実行などの特定領域では83%を超える成功率を記録しており、適切な用途に限定すれば実用的な価値を提供できることが示されています。また、6ヶ月間で成功率が24%から34%に向上したことは、技術の急速な進歩を示唆しています。
長期的な展望
ガートナーは2028年までに日常業務の15%がAIエージェントによって自律的に処理されると予測しており、これは現在の0%から大幅な増加を意味します。しかし、この数字は当初の期待値よりもはるかに控えめであり、AIエージェントの普及が段階的かつ慎重に進むことを示しています。
まとめ
テクノロジーのアーリーアダプターである皆さんにとって、この調査結果は冷静な技術評価の重要性を再認識させるものです。AIエージェントは確実に進歩していますが、現時点では限定的な用途での活用に留めるのが賢明なのかもしれません。真の「Tech for Human Evolution」を実現するためには、技術の可能性と限界を正確に理解し、適切な期待値を設定することが不可欠です。
【用語解説】
AIエージェント(Agentic AI)
複数のアプリケーションやAPIサービスを連携させながら、人間の指示に基づいて複雑なタスクを自律的に実行するAIシステム。単純な質問応答を超えて、メール処理、データ分析、コード作成などの業務を一連の流れで処理する能力を持つ。
エージェントウォッシング
既存のAIアシスタント、RPA(ロボティックプロセスオートメーション)、チャットボットなどの製品を、実質的なエージェント機能を追加せずに「エージェントAI」として再ブランディングすること。ガートナーが指摘する業界の問題。
TheAgentCompany
カーネギーメロン大学が開発したAIエージェントの性能評価ベンチマーク。小規模ソフトウェア企業の業務環境を模擬し、ウェブブラウジング、コード記述、アプリケーション実行、同僚とのコミュニケーションなどの実際の業務タスクでAIの能力を測定する。
CRMArena-Pro
セールスフォースが開発した顧客関係管理(CRM)分野に特化したAIエージェント評価ベンチマーク。営業、サービス、見積もりプロセスなど19の専門家検証済みタスクでAIの性能を測定する。
Model Context Protocol(MCP)
AIエージェントがより多くのシステムにプログラマティックにアクセスできるようにするプロトコル。エージェントの機能拡張に向けた技術的基盤として期待されている。
OpenHands CodeAct
CMUの研究で使用されたAIエージェントフレームワークの一つ。コーディングタスクに特化した設計となっている。
OWL-Roleplay
CMUの研究で使用されたもう一つのAIエージェントフレームワーク。ロールプレイ形式でのタスク実行を可能にする。
RocketChat
オープンソースのSlack代替コミュニケーションツール。CMUの研究でエージェントが使用に失敗した事例として言及された。
【参考リンク】
ガートナー(Gartner)(外部)
IT分野を中心とした調査・助言を行うアメリカの企業。Fortune500の73%が顧客で、IT市場の調査分析から戦略・組織・リーダーシップまで幅広いサービスを提供する。
カーネギーメロン大学 言語技術研究所(LTI)(外部)
自然言語処理、機械翻訳、音声認識などの言語技術分野で世界をリードする研究機関。33名の教員が在籍し、今回のTheAgentCompany研究を主導した。
セールスフォース(Salesforce)(外部)
サンフランシスコに本社を置くクラウドベースのソフトウェア企業。売上、顧客サービス、マーケティング自動化、AI分野のアプリケーションを提供し、世界最大の企業向けアプリケーション企業。
Anthropic(外部)
サンフランシスコを拠点とするAI安全性スタートアップ。AIシステムが人間の価値観と一致し、倫理的に動作することを保証する技術を開発。Claude AIアシスタントを提供している。
OpenAI(外部)
GPT-4oやChatGPTを開発するAI研究企業。今回の調査でAIエージェントの自動化可能性に関する研究論文を発表し、CMUの研究の動機となった。
Signal Foundation(外部)
プライバシー保護に特化した非営利組織。暗号化メッセージングアプリSignalを開発・運営し、AIエージェントのセキュリティ・プライバシー問題について警鐘を鳴らしている。
【参考記事】
Gartner – Wikipedia(外部)
ガートナー社の歴史、事業内容、組織構造について詳細な情報を提供。1979年の設立から現在までの発展過程と、IT業界における影響力について解説している。
Language Technologies Institute – Wikipedia(外部)
CMU言語技術研究所の学術的背景と研究プログラムについて詳細な情報。TheAgentCompany研究を実施した機関の学術的権威について説明。
Salesforce – Wikipedia(外部)
セールスフォース社の企業概要、事業展開、企業文化について詳細な情報。CRMArena-Pro研究を実施した企業の背景情報を提供している。
【編集部後記】
AIエージェントの現実を知って、皆さんはどう感じられましたか?期待していた未来と現実のギャップに驚かれた方も多いのではないでしょうか。
私たちも正直、この調査結果には考えさせられました。でも、だからこそ今が重要な時期だと思うんです。皆さんの職場や日常で、AIエージェントが本当に役立ちそうな場面はありますか?
逆に、人間にしかできないと改めて感じる業務はどんなものでしょう?この技術の可能性と限界を一緒に見極めながら、真に価値のある活用方法を探っていきませんか?
AI(人工知能)ニュースをinnovaTopiaでもっと読む
テクノロジーと社会ニュースをinnovaTopiaでもっと読む