Last Updated on 2025-04-03 11:14 by admin
Amazonは2025年4月1日(米国時間)、Webブラウザ内でタスクを自動的に実行するAIモデル「Amazon Nova Act」とその開発キット「Nova Act SDK」の研究プレビュー版を発表した。このAIエージェントは、ユーザーに代わってウェブブラウザを操作し、複雑なタスクを自律的に完了することができる。
Nova ActはAmazonの汎用人工知能(AGI)部門「Amazon AGI」によって開発された製品であり、同部門のAutonomy TeamのVPでAGI SFラボの責任者であるDavid Luan氏が率いている。David Luan氏はAdept AIの共同創業者兼CEOを務めた後、2024年にアクワイヤ(買収を伴う人材獲得)の一環としてAmazonに加わった人物である。
Nova Act SDKは、Apache 2.0ライセンスのもとでオープンソースとして提供されているが、このSDKはAmazonの独自開発したNovaモデルとのみ連携するように設計されている。開発者は「nova.amazon.com」を通じてSDKにアクセスでき、GitHubでも公開されている。
このAIエージェントの特徴は、複雑なワークフローを細かいコマンドに分解し、高い信頼性で実行できる点にある。日付選択やドロップダウンメニュー、ポップアップなど他のモデルが苦手とする操作において、社内評価で90%以上のスコアを達成したとされている。
Nova ActはAnthropicのClaude 3.7 SonnetやOpenAI CUAモデルとのベンチマークテストでも優れた性能を示しており、テキスト画面要素での指示追従をテストするScreenSpot Webテキストベンチマークでは0.939のスコアを達成し、Claude 3.7 Sonnet(0.900)とOpenAI CUA(0.883)を上回った。
具体的な活用例としては、賃貸物件の検索と駅までの自転車での距離計算、結果の構造化テーブルへの整理や、Sweetgreenから特定のサラダを毎週火曜日に自動注文するといった例が示されている。
Nova Act SDKは、Pythonとの深い統合性を持ち、Microsoftが開発したオープンソースのブラウザ自動化フレームワークPlaywrightと連携することで、パスワード入力などの機密性の高いタスクも安全に処理できる設計となっている。
【編集部解説】
Amazon Nova Actの発表は、AIエージェント技術の新たな進展を示す重要な出来事です。この技術は、ウェブブラウザを介して複雑なタスクを自動化する能力を持つAIエージェントの開発を可能にします。
Nova Actの特筆すべき点は、その高い信頼性と精度です。Amazonの内部テストでは、テキスト要素の操作やアイコンの認識において、OpenAIやAnthropicの競合モデルを上回る性能を示しています。現在のAIエージェントが30%から60%程度の成功率しか達成できない中、90%以上のスコアを達成したことは、実用的なAIエージェントの実現に向けた大きな一歩と言えるでしょう。
この技術がもたらす可能性は非常に広範囲に及びます。例えば、オンラインショッピングの自動化、複雑な予約プロセスの簡素化、情報収集の効率化などが考えられます。これにより、日常的なタスクの多くが自動化され、私たちの時間の使い方が大きく変わる可能性があります。
一方で、このような強力なAIエージェントの登場には、プライバシーやセキュリティに関する懸念も伴います。Amazon Nova Actは、Playwrightとの統合により、パスワードなどの機密情報をモデルに「見せる」ことなく安全に入力できる仕組みを提供していますが、個人情報の取り扱いや、AIによる自動化された行動の責任の所在など、新たな課題が浮上してくるでしょう。
また、Nova ActがAmazonの独自モデルとのみ連携するように設計されている点は、エコシステムの閉鎖性という観点から議論を呼ぶ可能性があります。OpenAIのAgents SDKが外部モデルとの連携を許可しているのに対し、Nova ActはAmazonのNovaモデルに限定されています。オープンな標準の重要性と、企業の競争優位性の確保のバランスが問われることになるでしょう。
長期的には、Nova Actのような技術が進化することで、人間とAIの協働の形が大きく変わる可能性があります。David Luan氏が述べているように、「エージェントがコンピューティングの構成要素になる」世界が訪れるかもしれません。AIが日常的なタスクを代行することで、人間はより創造的で戦略的な活動に集中できるようになるでしょう。
現在、Nova Actは無料の研究プレビュー版として提供されていますが、将来的には使用量ベースの課金やスケーリング保証などを含む本格的な商用サービスへと発展する予定です。AIエージェント技術の実用化に向けた重要な一歩として、今後の発展と、それが社会にもたらす変化に注目していく必要があります。
【用語解説】
AIエージェント:
特定の目標を達成するために環境を認識し、自律的に意思決定を行うAIシステム。従来のワークフローとの違いは、決められた手順を順番に実行するのではなく、目標達成のために自分で考えて行動する点にある。
SDK(Software Development Kit):
ソフトウェア開発キット。特定のプラットフォームやサービスのアプリケーション開発に必要なツール、ライブラリ、ドキュメントなどをまとめたパッケージ。
Amazon AGI:
Amazonの汎用人工知能(Artificial General Intelligence)部門。元Adept AIの共同創業者兼CEOだったDavid Luan氏が率いるAutonomy Teamを含む。
Playwright:
Microsoftが開発したオープンソースのブラウザ自動化フレームワーク。Nova Actと統合されており、ウェブブラウザをプログラムで制御できる。
アクワイヤ(acqui-hire):
企業が主に人材を獲得する目的で行う買収のこと。David Luan氏のAmazon入りはこの形で実現した。
【参考リンク】
Amazon Nova Act 公式サイト(外部)
Amazonが提供するAIエージェント開発キットの公式サイト。世界中の開発者がアクセス可能。
Microsoft AutoGen(外部)
Microsoftが開発したマルチエージェントフレームワーク。エージェント間の協調的な問題解決が特徴。
【編集部後記】
AIエージェントの世界が急速に進化しています。皆さんは日常のどんなタスクを自動化したいですか?オンラインショッピングの注文、旅行の予約、情報収集…。Amazon Nova Actのような技術が普及すれば、私たちの時間の使い方が大きく変わるかもしれません。AIエージェントとの新しい関係性について、一緒に考えてみませんか?あなたならAIエージェントにどんなことを任せたいですか?
【関連記事】
AI(人工知能)ニュースをinnovaTopiaでもっと読む