Google Lens、動画認識と音声質問機能を追加 – AIが動画内容を理解し検索体験を進化

 - innovaTopia - (イノベトピア)

2024年10月3日、Googleは画像認識技術「Google Lens」に新機能を追加したと発表した。この新機能により、ユーザーは動画を撮影しながら音声で質問できるようになる。

主な特徴は以下の通り:

  1. 動画撮影中に音声で質問が可能
  2. AIモデル「Gemini」を使用して動画内容を解析
  3. 質問に対する回答をAI Overviewsで生成
  4. Android版とiOS版のGoogle アプリで利用可能
  5. Search Labsプログラムへの参加が必要

また、静止画での検索機能も強化され、写真撮影後に音声で質問できるようになった。この機能は全世界で英語のみ対応している。

さらに、商品検索機能も改善され、写真から商品情報、価格、レビューなどが表示されるようになった。

これらの新機能は、GoogleがAI技術を活用して検索体験を向上させる取り組みの一環である。Google Lensは月間約40億回の検索のうち、約4分の1が買い物関連であるという。

from Google Lens now lets you search with video 

【編集部解説】

今回のGoogle Lensの新機能は、AIを活用した検索体験の革新として注目に値します。

まず、動画検索機能の導入は、静止画だけでは捉えきれない動きのある対象や、時間とともに変化する現象を理解し、それに関する質問に答えられるようになった点が画期的です。これにより、例えば自然現象や動物の行動、スポーツの動作など、動きを伴う対象についての理解が深まる可能性があります。

また、音声による質問機能の追加は、ユーザーインターフェースの観点から大きな進歩といえます。テキスト入力が不便な状況や、即座に質問したい場面で特に有用でしょう。

これらの機能は、Googleの最新AIモデル「Gemini」を活用しています。Geminiは動画の連続したフレームを理解し、それに関連する質問に答える能力を持っています。この技術の進歩は、将来的にはリアルタイムの視覚的理解や、より複雑な状況下での情報提供につながる可能性があります。

一方で、このような高度な視覚認識技術には、プライバシーやデータセキュリティに関する懸念も伴います。公共の場で他人を撮影する際の倫理的問題や、収集された映像データの取り扱いについては、今後慎重な議論が必要になるでしょう。

また、AIによる解釈が常に正確とは限らないため、ユーザーが得た情報を鵜呑みにせず、批判的に考える姿勢も重要です。

長期的には、この技術が教育、医療、科学研究など様々な分野で活用される可能性があります。例えば、複雑な自然現象の理解や、医療診断の補助ツールとしての応用が考えられます。

最後に、この機能はまだ英語のみの対応ですが、多言語展開により、言語の壁を越えた視覚的コミュニケーションツールとしての可能性も秘めています。

Google Lensの進化は、私たちの日常生活における情報アクセスの方法を大きく変える可能性を秘めています。技術の発展と同時に、その適切な利用や倫理的な側面についても、社会全体で考えていく必要があるでしょう。

【参考情報】

用語解説:

  1. Gemini: Googleが開発した最新の大規模言語モデル。人間のように多様な情報を理解・処理できる多機能AIです。
  2. マルチモーダル: テキスト、画像、音声など複数の形式のデータを同時に処理できる能力。人間の五感のように、様々な情報を統合して理解する仕組みに例えられます。
  3. Google Lens: スマートフォンのカメラを使って世界を理解し、情報を得るためのAI搭載ツール。スマートフォンのカメラを通して「見るだけで検索できる」便利なアプリです。

関連サイト:

  1. Google AI(外部)
    Googleの人工知能研究と開発に関する公式サイト。最新のAI技術や応用例を紹介しています。
  2. Google Gemini(外部)
    Geminiの公式サイト。機能や利用方法、最新情報などが掲載されています。
  3. Google Lens(外部)
    Google Lensの公式サイト。画像認識技術を使った様々な機能を紹介しています。

関連動画:

ホーム » AI(人工知能) » AI(人工知能)ニュース » Google Lens、動画認識と音声質問機能を追加 – AIが動画内容を理解し検索体験を進化