innovaTopia

ーTech for Human Evolutionー

Google『Project Mariner』とAnthropic『Claude』が示すAI音声制御の現実と限界

 - innovaTopia - (イノベトピア)

AIによる音声制御技術が進歩する中、キーボードとマウスの完全な代替は現実的ではないとの見解が示されている。

Digital Trendsが2025年5月29日(現地時間、日本時間5月29日)に公開した記事によると、Google、OpenAI、Anthropicなどの企業が開発するAIエージェントや自動化技術が注目を集める一方で、従来の物理的な入力デバイスを完全に置き換えることは困難であるという分析が示されている。

Google DeepMindは2024年12月に『Project Mariner』を初回発表し、2025年5月20日(現地時間、日本時間5月21日)のGoogle I/O 2025で正式にロールアウトを発表した。『Project Mariner』は『Gemini 2.0』基盤モデルを活用したAIエージェントで、Chrome browserの拡張機能として動作し、ウェブサイトを自動的にナビゲートしてユーザーの代わりに各種タスクを実行する。WebVoyager benchmarkで83.5%のスコアを達成し、最大12の並列タスクストリームと「Teach & Repeat」機能を搭載している。米国のAI Ultra Plan加入者(月額250ドル)が利用可能で、2025年夏までにGoogle検索のAIモードとGeminiアプリのエージェントモードに統合予定である。

Anthropicは2024年10月22日(現地時間、日本時間10月23日)に『Claude 3.5 Sonnet』の『Computer Use』機能をパブリックベータ版として公開した。この機能により、AIが画面のスクリーンショットを解析してピクセル単位でカーソルの移動距離を計算し、マウスクリックやキーボード入力を実行する。OSWorld benchmarkのスクリーンショットのみのカテゴリで14.9%のスコアを記録し、次点のAIシステムの7.8%を大きく上回った。SWE-bench Verifiedでは33.4%から49.0%に性能が向上している。

音声制御技術については、Windows PCやmacOSに既存のアクセシビリティ機能として音声アクセスツールが搭載されている。Hume AIはAnthropicと提携し、音声コマンドをコンピューター入力に変換する『Empathetic Voice Interface 2 (EVI 2)』を開発中である。

代替入力技術の分野では、Metaが手首装着型ウェアラブルデバイスの研究を進めている。同社はsurface electromyography (sEMG)技術を使用し、手首で発生する電気的運動神経信号をデジタル入力に変換する手法を開発している。2025年9月にリリース予定のMeta HUDグラス「Hypernova」には、この神経リストバンドが同梱される予定で、価格は1,000ドルから1,400ドルの範囲とされている。

フィンランドのスタートアップ、DoublePointは2025年1月9日(現地時間、日本時間1月10日)のCES 2025で『WowMouse』アプリを発表した。このアプリはApple Watchのセンサー、コンパス、加速度計を使用し、手のジェスチャーでデバイスを制御する機能を提供する。Google Play Storeでは既に10万人がダウンロードしており、Apple App Storeでも数千人のユーザーを獲得している。プロ版は4.99ドルで提供され、スクロール、ダブルタップ、メディアモード、オンスクリーンキーボードなどの機能が追加されている。

記事では、細かいメディア編集、コーディング、スプレッドシートへの入力、パスワード入力などの作業において物理的なキーボードとマウスが依然として必要であると指摘している。また、セキュリティの観点から、音声コマンド操作、合成音声による不正操作、個人情報の盗用リスクなど、OSメーカーやアプリ開発者が本人確認に関わる重要な操作をAIに完全に委ねることはリスクが高すぎるとの見解が示されている。

from:
 - innovaTopia - (イノベトピア)Can AI really replace your keyboard and mouse? | Digital Trends

【編集部解説】

AIによる音声制御技術の現状を正確に理解するためには、技術的な制約と実用性の両面から検証する必要があります。確かにGoogleの『Project Mariner』やAnthropicの『Claude Computer Use』は印象的なデモンストレーションを見せていますが、実際の運用では多くの課題が残されています。

特に注目すべきは、これらのAIシステムが依然として従来の入力方式に依存している点です。『Project Mariner』は『Gemini 2.0』の強力なマルチモーダル推論能力を活用し、「観察・計画・実行」ループで動作しますが、根本的にはChrome browser上でのマウスクリックやキーボード入力をシミュレートしているに過ぎません。WebVoyager benchmarkで83.5%という高いスコアを記録していますが、これは限定的な環境での評価結果です。

『Claude Computer Use』についても同様で、OSWorld benchmarkでの14.9%というスコアは、一般的な人間の70-75%の性能と比較すると大幅に劣っています。これは現在のAI技術がまだ人間レベルのコンピューター操作には到達していないことを示しています。

セキュリティの観点から見ると、音声制御の全面的な導入には重大なリスクが伴います。Trend Microの2025年2月の分析によると、音声コマンド操作、合成音声による不正操作、個人情報の盗用といった脅威が確認されています。特に、常時音声録音による機密会話の漏洩リスクや、音声コマンド操作による不正アクセスの可能性は深刻な問題です。また、パスワード入力や本人認証といった重要な操作を音声で行うことは、盗聴のリスクを考慮すると現実的ではありません。

Metaが開発中のsurface electromyography(sEMG)技術を使った神経リストバンドは、確かに革新的なアプローチです。2025年9月にリリース予定の「Hypernova」HUD glassesに同梱されるこのデバイスは、電気信号を直接読み取ることで従来の物理的な動作よりも高速な入力を可能にするとされています。しかし、価格が1,000ドルから1,400ドルと高額であり、一般消費者への普及には時間がかかると予想されます。

現在市場に出ている代替入力デバイスを見ると、『WowMouse』のようなスマートウォッチベースのジェスチャー制御アプリが10万ダウンロードを超える人気を集めています。CES 2025での発表以降、Apple Watch版も数千人のユーザーを獲得していますが、これらのソリューションはカーソル操作やタップジェスチャーの代替に留まり、完全なキーボード体験を提供するには至っていません。

実用性の面では、細かいメディア編集、プログラミング、データ入力といった精密な作業において、音声制御は効率的ではありません。「D5セルに4,895ドルを入力」といった単純な作業でも、音声で説明するよりもキーボードで直接入力する方が遥かに迅速です。

興味深いのは、音声検索とAI SEOの分野で大きな変化が起きていることです。2025年には音声検索がインターネット検索の50%以上を占めると予測されており、企業は会話型キーワードや自然言語処理に対応したコンテンツ最適化に注力しています。これは、音声インターフェースが特定の用途では確実に普及していることを示しています。

長期的な視点で考えると、AIは確実に人間とコンピューターの相互作用を変革していくでしょう。しかし、それは既存の入力デバイスを完全に置き換えるのではなく、補完的な役割を果たすことになりそうです。音声制御は特定の場面では非常に有効ですが、精密性、セキュリティ、効率性を要求される作業では、従来の物理的な入力方式が優位性を保ち続けるでしょう。

技術の進歩は段階的に進むものであり、革命的な変化よりも漸進的な改善が現実的です。当面は、音声制御とキーボード・マウスが共存し、用途に応じて使い分けられるマルチモーダルな環境が続くと予想されます。

【用語解説】

ジェミニ2.0(Gemini 2.0):グーグル・ディープマインドが開発したマルチモーダル大規模言語モデルの最新版。AIエージェント機能を内蔵し、テキスト、音声、画像、動画を統合的に処理する。プロジェクト・マリナーの基盤技術として使用されている。

WebVoyagerベンチマーク:ウェブブラウジングタスクにおけるAIエージェントの性能を評価するベンチマーク。プロジェクト・マリナーは83.5%のスコアを達成し、最先端の性能を示している。

OSワールドベンチマーク(OSWorld):コンピューター操作におけるAIの性能を測定するベンチマーク。スクリーンショットのみのカテゴリでクロード3.5ソネットが14.9%のスコアを記録した。

SWE-benchベリファイド(SWE-bench Verified):ソフトウェアエンジニアリングタスクにおけるAIの性能を評価するベンチマーク。クロード3.5ソネットは33.4%から49.0%に性能が向上している。

表面筋電図(sEMG:surface Electromyography):皮膚表面から筋肉の電気的活動を測定する技術。メタは手首に装着するデバイスで筋肉の電気信号を読み取り、デジタル入力に変換する研究を進めている。

ハイパーノヴァ(Hypernova):メタが2025年9月にリリース予定のHUDグラス。右レンズ下部に小型モノキュラーディスプレイを搭載し、神経リストバンドが同梱される。価格は1,000ドルから1,400ドルの範囲。

Teach & Repeat機能:プロジェクト・マリナーの機能の一つ。ユーザーが一度デモンストレーションしたワークフローを学習し、類似の将来のタスクに適用する。

【参考リンク】

Google DeepMind(外部)Google傘下のAI研究機関。Project MarinerやProject Astraなどの先進的なAI技術を開発している。

Anthropic(外部)ClaudeシリーズのAIモデルを開発するAI企業。2024年10月22日にComputer Use機能をパブリックベータ版として公開した。

Hume AI(外部)感情認識技術に特化したAI企業。音声や表情から感情を分析し、共感的な応答を生成するEVIシステムを開発している。

Meta(外部)旧Facebook。VR/ARデバイスやsEMG技術を使った次世代入力デバイスの研究開発を行っている。2025年9月にHypernova HUD glassesをリリース予定。

DoublePoint(外部)フィンランドのスタートアップ企業。スマートウォッチを使ったジェスチャー認識技術WowMouseを開発している。CES 2025でApple Watch版を発表。

【参考動画】

【参考記事】

Google rolls out Project Mariner, its web-browsing AI agent | TechCrunch

Claude introduces computer use capability in public beta | PPC Land

CES 2025: A Comprehensive Look at AI Digital Assistants and Their Security Risks | Trend Micro

【編集部後記】

今回のAI音声制御技術の話、正直言って「ついに来たか・・・!」と思う反面、「でもまだまだだな」というのが本音です。Project MarinerやClaude Computer Useのデモを見ると確かにすごいんですが、実際に使ってみると「あれ?」となることも多そう。特にセキュリティ面では、パスワードを声に出すなんて絶対イヤですよね。Metaの神経リストバンドは本当に未来感があって興味深いですが、1,400ドルって…ちょっと手が出ません。結局のところ、しばらくは今まで通りキーボードとマウスでカタカタやってる方が早いし安心、というのが現実的な結論かもしれませんね。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaでもっと読む

投稿者アバター
乗杉 海
新しいものが大好きなゲーマー系ライターです!
ホーム » AI(人工知能) » AI(人工知能)ニュース » Google『Project Mariner』とAnthropic『Claude』が示すAI音声制御の現実と限界