Google:Gemini2.0やAstra─AIアシスタントの概念を一新する革新的プロジェクト発表

 - innovaTopia - (イノベトピア)

OpenAIのGPT-4が市場を席巻する中、Google DeepMindは異なる道を選んだ。「理解する」AIアシスタントという新たな領域への挑戦。そこには、次世代プラットフォームの覇権を握るための周到な戦略が見え隠れする。

Google DeepMindが、生成AIを大衆市場へと展開する競争において主導権を取り戻す可能性のある、印象的な新製品とプロトタイプをいくつか発表した。

最も注目を集めているのは、Gemini 2.0Project Astraだ。Gemini 2.0は、エージェント制御機能を中心に再設計されたGoogle DeepMindのマルチモーダル大規模言語モデルファミリーの最新版で、前バージョンの2倍の処理速度を実現している。また、数学や物理から健康、心理学、哲学まで幅広い分野での能力をテストするMMUL-Proベンチマークで優れた性能を示した。

Project Astraは、5月のGoogle I/Oで予告された実験的な万能アプリケーションの新バージョンである。Gemini 2.0の組み込みエージェントフレームワークを活用し、テキスト、音声、画像、動画を通じて質問に答え、タスクを実行する。例えば、料理レシピを認識してワインを選んだり、アートギャラリーで作品解説をしたりすることができる。

その他にも、ウェブブラウジングを代行するMariner、コーディングアシスタントのJules、ゲームプレイ中にチャットやヒントを提供するGemini for Gamesなどが発表された。

from Google’s new Project Astra could be generative AI’s killer app

from 新しいChatGPTに対抗、グーグルの次世代AIアシスタント「Project Astra」のすべて

【編集部解説】

Google DeepMindが発表したGemini 2.0とProject Astraは、単なる性能向上ではなく、AIの利用形態を大きく変える可能性を秘めています。特に注目すべきは「エージェント時代」という新しいコンセプトです。

従来のAIは、ユーザーからの質問に答えるだけでしたが、Gemini 2.0は自律的に行動を起こすことができます。これは、AIが人間の意図を理解し、適切なツールを選択して目的を達成するという新しい段階に入ったことを意味します。

Project Astraの10分間の視覚的記憶機能は、人間の短期記憶に近い特性を持っています。これにより、AIが文脈を理解し、より自然な対話が可能になります。

しかし、マルチモーダル技術の現状には課題も残されています。視覚情報の処理と長期記憶の統合には技術的な難しさがあり、デモと実際の製品には大きな隔たりがあることを認識する必要があります。

プライバシーとセキュリティに関する懸念も重要です。常時カメラを通じて周囲を観察し、会話を記憶する機能は、新たなプライバシー問題を提起します。Google DeepMindは責任ある開発アプローチを取っていると主張していますが、具体的な対策についてはまだ明確になっていません。

【用語解説】

Gemini 2.0
GoogleのAIモデルの最新版。従来のGemini 1.5の2倍の処理速度を持ち、エージェントとしての機能を強化したAIモデル。

Project Astra
Googleが開発中の次世代AIアシスタント。カメラを通じて周囲を認識し、音声で対話しながらユーザーを支援する。

エージェント
自律的に行動を起こし、タスクを実行できるAIシステム。人間の代わりに作業を行うことができる。

マルチモーダル
テキスト、画像、音声、動画など、複数の形式のデータを同時に処理できる能力。

【参考リンク】

  1. Google DeepMind(外部)
    2010年設立、2014年にGoogleが買収。AI研究の最先端を走る研究所。

【関連動画】

ホーム » AI(人工知能) » AI(人工知能)ニュース » Google:Gemini2.0やAstra─AIアシスタントの概念を一新する革新的プロジェクト発表