ーTech for Human Evolutionー

Gemini Live：GoogleのAI音声アシスタントが人間らしい会話を実現、ChatGPTに対抗

AI（人工知能）ニュース

Headline News

TaTsu

[公開]

2024年8月14日7:54

[更新]2024年8月14日

DALLE 2024-08-14 074017 - A futuristic illustration depicting a person having a natural conversation with a holographic AI assistant The AI is represented by a glowing ethere - innovaTopia

2024年8月13日、Googleは音声対話AI「Gemini Live」を発表した。これは同社の最新AI言語モデル「Gemini」を基盤とし、人間のような自然な会話を実現する音声インターフェースを特徴としている。

Gemini Liveは、ChatGPTの音声機能「Advanced Voice Mode」に対抗する形で開発された。この新機能により、ユーザーはGeminiと音声で対話し、複雑な質問や指示に対して即座に応答を得ることができる。

Gemini Liveの主な特徴は以下の通り：

自然な会話フロー：人間のような抑揚やポーズを含む自然な音声で応答する。
マルチモーダル対応：音声だけでなく、テキスト、画像、動画など複数の入力形式に対応する（一部機能は今後追加予定）。
リアルタイム情報アクセス：最新のニュースや情報にアクセスし、回答に反映させる。
複数言語サポート：まずは英語で提供され、今後数週間以内に他の言語にも対応予定。

Googleは、この新機能がAIアシスタントの利用体験を大きく向上させ、より直感的で効率的なコミュニケーションを可能にすると述べている。Gemini Liveは、Android向けのGoogle Geminiアプリで利用可能で、Gemini Advanced購読（月額19.99ドル）が必要。iOS版も数週間以内に提供される予定である。

from:Google’s AI surprise: Gemini Live speaks like a human, taking on ChatGPT Advanced Voice Mode

We’re introducing Gemini Live, a more natural way to interact with Gemini. You can now have a free-flowing conversation, and even interrupt or change topics just like you might on a regular phone call. Available to Gemini Advanced subscribers. #MadeByGoogle pic.twitter.com/eNjlNKubsv
— Google (@Google) August 13, 2024

【編集部解説】

Gemini Liveは、GoogleのAIモデル「Gemini」を基盤とした音声対話AIです。これは、OpenAIのChatGPTの「Advanced Voice Mode」に対抗する形で開発されました。注目すべきは、GoogleがOpenAIよりも早くこの機能を一般ユーザーに提供しようとしている点です。

Gemini Liveの最大の特徴は、人間のような自然な会話を実現する点です。ユーザーは音声でGeminiと対話し、複雑な質問や指示に対して即座に応答を得ることができます。さらに、AIの返答中でも会話を遮って質問を変更したり、追加の情報を求めたりすることが可能です。これは、より自然で流動的な対話を可能にします。

この技術により、私たちのAIとのインタラクションは大きく変わる可能性があります。例えば、運転中やハンズフリーが必要な状況での情報検索や作業支援が、より自然に行えるようになるでしょう。また、アイデアのブレインストーミングや重要な会話の準備にも活用できると考えられます。

現在、Gemini LiveはAndroid向けのGoogle Geminiアプリで英語版が利用可能です。iOS版や他言語のサポートも数週間以内に提供される予定で、これにより、より多くのユーザーがこの技術を体験できるようになります。

しかし、この技術にはポジティブな側面だけでなく、潜在的なリスクも存在します。例えば、AIが人間の声を完璧に模倣できるようになれば、なりすましや詐欺などの犯罪に悪用される可能性があります。OpenAIが自社の音声モードの公開を慎重に進めているのも、こうしたリスクへの懸念があるためと考えられます。

また、プライバシーの問題も懸念されます。音声対話の中で意図せず個人情報が漏れる可能性は否定できません。Googleがこれらのリスクにどのように対応するのか、今後の発表を注視する必要があります。

長期的な視点で見ると、Gemini Liveのような技術は、教育や医療、カスタマーサービスなど、様々な分野に革新をもたらす可能性があります。例えば、個別化された学習支援や、24時間対応の健康相談など、人間の専門家を補完するツールとして活用できるでしょう。

【用語解説】

Gemini：
Googleが開発した大規模言語モデル（LLM）です。テキスト、画像、音声などを理解・生成できる多機能AIモデルで、ChatGPTに対抗するものとして注目されています。
Gemini Advanced：
Geminiの高性能版で、より複雑なタスクや長文の処理が可能です。月額19.99ドルの有料サブスクリプションで利用できます。
Google Gemini アプリ：
Geminiをモバイルデバイスで利用するためのアプリケーションです。Android版が先行リリースされ、iOS版も近日中に提供される予定です。

【参考リンク】

Google AI Blog – Introducing Gemini（外部）
説明: GoogleがGeminiを発表した際の公式ブログ記事。Geminiの特徴や性能について詳しく解説しています。
Google Gemini（外部）
説明: Geminiの公式ウェブサイト。機能の概要や利用方法について情報が掲載されています。

【関連記事】

AI（人工知能）ニュースをinnovaTopiaでもっと読む

AI（人工知能）ニュース

Headline News

TaTsu

『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

記事一覧