AWS、障害復旧を自動化するDevOps Agent発表 86%の精度で根本原因を特定

[更新]2025年12月3日

 - innovaTopia - (イノベトピア)

Amazon Web Servicesは2025年12月2日、システム障害の原因特定と復旧を支援するAIツール「DevOps Agent」を発表した。このツールはDatadogDynatraceなどのサードパーティツールからのデータを使用して技術的問題の原因を予測する。顧客は火曜日からプレビュー版に登録可能で、その後課金が開始される。

DevOps Agentは待機スタッフを待たずに自動的に複数の仮説を調査し、オペレーションチームメンバーが対応する時点でインシデントレポートと修復案を提供する。Commonwealth Bank of Australiaのテストでは、ベテランエンジニアが数時間かかる問題の根本原因を15分未満で発見した。このツールはAmazonの社内AIモデルと他プロバイダーのモデルを使用している。

From: 文献リンクAmazon launches cloud AI tool to help engineers recover from outages faster

【編集部解説】

AWSが発表したDevOps Agentは、サイト信頼性エンジニア(SRE)の業務を支援する新しいタイプのAIツールです。SREとは、システムの信頼性と安定性を維持しながら、開発スピードも確保するという重要な役割を担うエンジニアです。従来、彼らはシステム障害が発生すると、深夜であっても即座に対応し、膨大なログデータから原因を特定し、修正作業を行ってきました。

今回発表されたDevOps Agentは、AWSがre:Invent 2025で打ち出した「frontier agents」という新しいAIエージェントカテゴリーの1つです。frontier agentsは、数時間から数日間、人間の介入なしに自律的に動作できる点が特徴で、DevOps Agent以外に、開発者向けの「Kiro autonomous agent」、セキュリティ専門家向けの「AWS Security Agent」の計3つが発表されました。

DevOps Agentの最大の特徴は、インシデント発生時に自動的に調査を開始し、待機中のエンジニアが対応を始める頃にはすでに根本原因の特定と修復案を用意している点です。DatadogやDynatraceといった既存の監視ツールと連携し、メトリクス、ログ、最近のコードデプロイメントなど複数のデータソースを横断的に分析します。

実際の成果も報告されています。AWS副社長のSwami Sivasubramanianによれば、DevOps Agentを2025年に発生した数千のエスカレーションに対して実行したところ、86%の確率で根本原因を正しく特定したとのことです。また、Commonwealth Bank of Australia(CBA)での実証では、1700のAWSアカウントにまたがる大規模なクラウドインフラにおいて、ベテランエンジニアが数時間かかる複雑なネットワークスタックのデバッグを、わずか数分で完了したと報告されています。

重要なのは、このツールが完全な自動化を目指していない点です。DevOps Agentは問題を自動的に修正するのではなく、「mitigation plan(緩和計画)」を生成し、エンジニアが承認した上で実行する設計になっています。これにより、AIの効率性と人間の判断力を組み合わせた、より安全な運用が可能になります。

このツールは現在、US East(N. Virginia)リージョンでプレビュー版として無料提供されており、正式リリース後に課金が開始される予定です。ServiceNowとの統合が標準で用意されているほか、webhookを通じてPagerDutyなどの他のインシデント管理ツールとも連携可能です。

クラウドインフラの複雑化が進む中、24時間365日の安定稼働を求められる企業にとって、SREチームの負担は増す一方でした。DevOps Agentのようなツールは、エンジニアが深夜の緊急対応から解放され、より創造的な業務に集中できる環境を実現する可能性を秘めています。これは単なる効率化ツールではなく、エンジニアの働き方そのものを変革する技術と言えるでしょう。

【用語解説】

サイト信頼性エンジニア(SRE:Site Reliability Engineer)
システムの信頼性と安定性を維持しながら、開発速度も確保する役割を担うエンジニア。Googleが提唱した概念で、従来の運用エンジニアとは異なり、ソフトウェアエンジニアリングの手法を用いてシステム運用を自動化し、ダウンタイムを最小化することを目指す。

DevOps
開発(Development)と運用(Operations)を組み合わせた概念。開発チームと運用チームが密接に連携し、ソフトウェアのリリースサイクルを短縮化しながら品質を維持する手法。SREはDevOpsという抽象的な概念を具体的に実装する方法論の一つとされる。

frontier agents
AWSが提唱する新しいAIエージェントのカテゴリー。数時間から数日間、人間の介入なしに自律的に動作できる点が特徴。従来のAIアシスタントが単発のタスクをこなすのに対し、frontier agentsは複雑なプロジェクトを長期間にわたって処理できる。

MTTR(Mean Time To Resolution)
平均解決時間。システム障害が発生してから完全に復旧するまでにかかる平均時間を示す指標。この時間が短いほど、システムの信頼性が高いとされる。

Amazon Bedrock
AWSが提供する生成AIサービス。複数のAI基盤モデルにアクセスでき、企業が独自のAIアプリケーションを構築できるプラットフォーム。

【参考リンク】

AWS DevOps(外部)
AWSが提供するDevOpsサービスの総合ページ。開発と運用を統合するツールやベストプラクティスを紹介。

Amazon Bedrock(外部)
生成AIアプリケーションを構築するためのAWSの完全マネージド型サービス。複数のAI基盤モデルへのアクセスを提供。

Datadog(外部)
クラウド規模のアプリケーション向け監視・分析プラットフォーム。メトリクス、トレース、ログを統合して可視化。

Dynatrace(外部)
ソフトウェアインテリジェンスプラットフォーム。AIを活用してアプリケーションパフォーマンスを監視し、問題を自動検出。

Commonwealth Bank of Australia(外部)
オーストラリア最大級の金融機関。AWSとの長期パートナーシップによりクラウド基盤の近代化を推進。

AWS re:Invent(外部)
AWSが毎年ラスベガスで開催する年次カンファレンス。最新のクラウドサービスやAI技術が発表される。

【参考記事】

AWS DevOps Agent helps you accelerate incident response and improve system reliability (preview)(外部)
AWSの公式ブログ。DevOps Agentの詳細な機能説明、使用方法、アーキテクチャについて解説。

AWS re:Invent 2025: Amazon announces Nova 2, Trainium3 and frontier agents(外部)
re:Invent 2025で発表された主要な製品を総合的に紹介。frontier agentsの3つのタイプとその役割を説明。

Amazon unveils ‘frontier agents,’ new chips and private ‘AI factories’ in AWS re:Invent rollout(外部)
frontier agentsの詳細と、人間によるガードレール機能について解説。DevOps Agentの具体的な動作メカニズムを紹介。

Amazon launches AI DevOps Agent, a new tool that detects outages and fixes issues in minutes(外部)
Commonwealth Bank of Australiaでの実証テストの詳細と、15分以内での問題解決事例を報告。

Changing Software Development with Frontier Agents(外部)
AWS副社長Swami Sivasubramanianのインタビュー。DevOps Agentが86%の確率で根本原因を特定したデータを公表。

AWS re:Invent 2025 – all the day one news and updates as it happens(外部)
re:Invent 2025初日のライブレポート。DevOps Agentを含む25の新製品発表をリアルタイムで報道。

CommBank and AWS expand collaboration to deliver global best cloud and AI capabilities(外部)
Commonwealth Bank of AustraliaとAWSの長期パートナーシップの詳細。AI活用による6週間での製品化事例を紹介。

【編集部後記】

システム障害対応の現場では、今も多くのエンジニアが深夜の緊急対応に追われています。DevOps Agentのようなツールが普及すれば、エンジニアの働き方は大きく変わるかもしれません。ただ、完全な自動化ではなく「AIが調査し、人間が判断する」という協働の形は、私たちが目指すべき未来の姿を示しているように感じます。みなさんの組織では、運用業務の自動化はどこまで進んでいるでしょうか。AIと人間の役割分担について、一緒に考えてみませんか。技術の進化が、エンジニアをより創造的な仕事へと解放していく――そんな未来に、私たちも期待を寄せています。

投稿者アバター
Satsuki
テクノロジーと民主主義、自由、人権の交差点で記事を執筆しています。 データドリブンな分析が信条。具体的な数字と事実で、技術の影響を可視化します。 しかし、データだけでは語りません。技術開発者の倫理的ジレンマ、被害者の痛み、政策決定者の責任——それぞれの立場への想像力を持ちながら、常に「人間の尊厳」を軸に据えて執筆しています。 日々勉強中です。謙虚に学び続けながら、皆さんと一緒に、テクノロジーと人間の共進化の道を探っていきたいと思います。

読み込み中…
advertisements
読み込み中…