ーTech for Human Evolutionー

AIエージェントの成功率35%の現実　Mixusが人間監視で安全性確保へ

AI（人工知能）ニュース

Headline News

TaTsu

[公開]

2025年6月29日11:23

[更新]2025年6月29日

AIエージェントの成功率35の現実 Mixusが人間監視で安全性確保へ - innovaTopia

AIエージェントの責任問題に対処するため、Mixusが「同僚をループに含む」アプローチを開発した。2025年5月のSalesforce研究によると、現在の主要AIエージェントは単一ステップタスクで58%、マルチステップタスクで35%の成功率しか示していない。

AI搭載コードエディターCursorは自社サポートボットが偽のポリシーを発明し顧客キャンセルを引き起こし、フィンテック企業Klarnaはカスタマーサービス担当者をAIに置き換える決定を撤回し品質低下をもたらしたことを認めた。

ニューヨーク市のAIチャットボットは起業家に違法行為を助言する事例も発生した。Mixus共同創設者Elliot Katzは、AIエージェントが重要な5-10%の決定で人間の承認を求め、残り90-95%のルーチンタスクは自動処理する仕組みを提案している。

同社は2030年までにエージェント展開が1000倍成長し、各人間監視者が50倍効率的になると予測している。

From: AI agents are hitting a liability wall. Mixus has a plan to overcome it using human overseers on high-risk workflows

【編集部解説】

AIエージェントの責任問題は、2025年現在において企業のAI導入における最も重要な課題の一つとなっています。この問題は単なる技術的な課題ではなく、法的・経済的なリスクを伴う深刻な問題です。

Mixusが提案する「同僚をループに含む」アプローチは、完全自動化と人間監視のバランスを取る実用的な解決策として注目されています。このモデルの革新性は、AIの効率性を維持しながら、重要な決定においてのみ人間の判断を組み込む点にあります。

技術的な観点から見ると、現在のLLMの成功率（単一ステップタスク58%、マルチステップタスク35%）は、ミッションクリティカルな業務には不十分であることが明らかです。この現実は、完全自動化への過度な期待を戒める重要な指標となっています。

ポジティブな側面として、この技術により企業は段階的にAI導入を進めることが可能になります。リスクを最小化しながら自動化の恩恵を受けられるため、特に規制の厳しい金融や医療分野での活用が期待されます。

一方で、潜在的なリスクも存在します。人間監視者の判断ミスや、監視体制の不備により、従来の人的ミスとAIエラーの複合的な問題が発生する可能性があります。また、監視コストの増加により、AI導入のROIが低下する懸念もあります。

長期的な視点では、Mixusが予測する2030年までのエージェント展開1000倍成長は、労働市場の構造的変化を示唆しています。人間の役割は単純作業から高度な判断業務へとシフトし、AI監視スペシャリストという新たな職種の創出も予想されます。

この動向は、AI規制の方向性にも大きな影響を与えるでしょう。人間監視を前提としたAI運用モデルが標準化されることで、より実用的で現実的な規制枠組みの構築が進む可能性があります。

【用語解説】

AIエージェント
人間の指示に基づいて自律的にタスクを実行するAIシステムである。メール送信、データ分析、顧客対応などの業務を自動化する。

AI幻覚（AI Hallucination）
AIが事実に基づかない情報を生成する現象である。存在しないポリシーや間違った情報を作り出すことがある。

同僚をループに含む（Colleague-in-the-loop）
AIエージェントの作業プロセスに人間の確認・承認ステップを組み込む手法である。重要な決定において人間の判断を必須とする。

Model Context Protocol（MCP）
AIモデルが外部ツールやAPIと連携するための標準プロトコルである。企業の既存システムとAIエージェントを統合する際に使用される。

LLM（Large Language Model）
大規模言語モデルである。膨大なテキストデータで訓練された自然言語処理AI。ChatGPTやGPT-4などが代表例である。

【参考リンク】

Mixus（外部）
人間監視機能を組み込んだAIエージェント構築・管理プラットフォーム

Salesforce（外部）
CRM中心のクラウドサービス企業、AIエージェント性能調査を発表

Cursor（外部）
AI搭載コードエディター、Visual Studio Codeベースの開発環境

Klarna（外部）
スウェーデン発フィンテック企業、後払いサービスを提供

【参考記事】

Cursor (code editor) – Wikipedia（外部）
AI搭載コードエディターCursorの概要と開発会社情報

Klarna – Wikipedia（外部）
フィンテック企業Klarnaの企業概要と成長過程の詳細

【編集部後記】

AIエージェントの責任問題は、私たちの働き方を根本から変える可能性を秘めています。皆さんの職場でも、AIツールの導入が検討されているのではないでしょうか。

完全自動化への憧れと、失敗への不安のバランスをどう取るか—これは技術者だけでなく、すべてのビジネスパーソンが向き合う課題です。Mixusのような「人間とAIの協働」モデルが、皆さんの業界にどのような変化をもたらすと思いますか？また、AIに任せたい業務と、人間が最終判断すべき業務の境界線を、どこに引きますか？

AI(人工知能)ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧