advertisements

Gemini 3.1 Flash Live登場|Googleの音声AIが”人間の感情”を読み取る時代へ

[更新]2026年3月28日

Googleは2026年3月26日、音声・ボイスモデル「Gemini 3.1 Flash Live」を発表した。開発者向けにはGoogle AI StudioのGemini Live APIでプレビュー提供され、企業向けにはGemini Enterprise for Customer Experienceで、一般ユーザー向けにはGemini LiveおよびSearch Liveで利用可能となった。

ComplexFuncBench Audioにおけるスコアは90.8%、Scale AIのAudio MultiChallengeでは「thinking」機能オンの状態で36.1%を記録し、いずれも既存モデルを上回った。Gemini Liveでは旧モデルと比較して会話スレッドの把握長が2倍に延長された。Search Liveは200カ国以上に展開され、多言語でのリアルタイムかつマルチモーダルな会話に対応する。生成された音声にはSynthIDによる透かしが付与される。Verizon、LiveKit、The Home Depotが導入している。

From: 文献リンクGemini 3.1 Flash Live: Making audio AI more natural and reliable

【編集部解説】

今回のGemini 3.1 Flash Live発表を読み解く上でまず押さえておきたいのが、このモデルの立ち位置です。Google DeepMindが公開したモデルカードによれば、Gemini 3.1 Flash Liveは「Gemini 3 Pro」をベースに開発されており、単なるマイナーアップデートではなく、Googleの最新世代モデルのアーキテクチャを音声リアルタイム対話に特化させたものです。入力は最大128Kトークン、出力は64Kトークンというコンテキストウィンドウを持ち、音声・画像・動画・テキストをネイティブに扱えるマルチモーダル設計となっています。

技術的な核心は「レイテンシーの壁」を越えようとする挑戦にあります。人間の会話では、相手の返答に300〜500ミリ秒以上の遅延があると、不自然な沈黙として認識されます。これまでの音声AIが「機械と話している」という違和感を拭えなかった最大の理由がここにあります。3.1 Flash Liveはレイテンシー削減に加え、ピッチ・ペースといった音響的ニュアンスの認識精度を前世代モデルである2.5 Flash Native Audioより向上させており、ユーザーの感情状態を読み取ってレスポンスを動的に調整する機能を備えています。

独立した調査機関Artificial AnalysisによるBigBench Audioベンチマークでは、「High」thinking設定時に95.9%(応答時間2.98秒)、「Minimal」設定時には70.5%(応答時間0.96秒)を記録しています。thinking設定を切り替えることで、精度と速度のトレードオフをユーザー側でコントロールできる設計は、実用面での柔軟性という観点で注目に値します。

開発者向けに見逃せないのが、90言語以上に対応したリアルタイムマルチモーダル対話です。元記事では「多言語対応」とだけ記されていますが、Google開発者ブログでは具体的に90言語超と明記されています。また、背景雑音(交通騒音やテレビ音声など)から目的音声を分離するノイズフィルタリングの強化も重要な実装です。コールセンターや屋外環境など、実世界での運用を前提としたアップグレードであることがわかります。

エンタープライズ活用の観点では、VerizonのカスタマーサポートやThe Home Depotのコンタクトセンターへの実装事例が示すとおり、すでにビジネスの最前線で稼働しています。音声エージェントが複雑な指示に従い、外部ツールを呼び出して情報を取得・提供できるようになると、従来の自動応答システム(IVR)を置き換えるポテンシャルを持ちます。カスタマーサポート業務への影響は特に大きく、長期的には人的オペレーターの役割が変質していく可能性があります。

一方、潜在的なリスクについても目を向けておく必要があります。音声AIの精度が向上するほど、ディープフェイク音声や詐欺的なフィッシング音声への悪用リスクも高まります。Googleが全音声出力にSynthIDによる透かしを埋め込んでいるのは、こうしたリスクへの先手ともいえますが、透かし技術自体を回避しようとする試みが出てくる可能性は否定できません。AI生成音声の検出・識別技術と、それを悪用する技術とのいたちごっこも理解しておくべき現実です。

規制の観点では、EUのAI Actをはじめ各国でAI生成コンテンツの開示義務が議論・整備されつつある中、SynthIDのような透かし技術はそのコンプライアンス要件に応えるための布石とも読めます。音声AIが200カ国以上に展開されることで、各国の規制当局がどのようなルール整備を進めるかにも注目が集まるでしょう。

将来への視点として注目したいのが「バイブコーディング(vibe coding)」への音声入力の組み合わせです。開発者ブログでは、Googleの実験的ツールStitchが音声でUIデザインの指示を与えられるデモが紹介されています。キーボードとマウスを使わず、声でソフトウェアやコンテンツを生成する時代が現実のものとなりつつあります。音声インターフェースがAIとの主要なインタラクション手段に成長する流れは、今後のUXデザインやアクセシビリティの概念そのものを塗り替えていくはずです。

【用語解説】

レイテンシー(Latency)
データの送受信や処理にかかる遅延時間のこと。音声AIにおいては、ユーザーが話しかけてからAIが返答するまでの時間を指す。人間の自然な会話では300〜500ミリ秒以上の遅延があると違和感が生じるとされており、音声AIの品質を左右する重要な指標だ。

ComplexFuncBench Audio
多段階の関数呼び出し(function calling)能力を評価するベンチマーク。さまざまな制約条件が絡み合う複雑なタスクをモデルが正確にこなせるかを測定する。旅行予約などの実用的なシナリオをベースに設計されている。

Audio MultiChallenge
Scale AIが提供する音声AIの評価ベンチマーク。現実の会話に特有の割り込みや言いよどみが混在する状況での、複雑な指示への対応能力や長期的な推論能力を測定する。

BigBench Audio
音声AIの理解力を測る単一ターン評価ベンチマーク。音声キャプション・音声理解・音場認識・アクセント/言語識別・音声認識の5分野、1,000件の音声録音で構成される。Artificial Analysisが外部評価機関として計測を担当している。

SynthID
Googleが開発した、AI生成コンテンツに埋め込む電子透かし技術。人間の耳には知覚できない形で音声データに直接組み込まれる。AI生成音声の検出・識別を可能にし、ディープフェイクや誤情報の拡散防止を目的としている。

マルチモーダル(Multimodal)
テキスト・音声・画像・動画など、複数の異なる形式の情報を同時に処理・生成できる能力を指す。Gemini 3.1 Flash Liveは音声・画像・動画・テキストをネイティブに扱えるマルチモーダル設計を持つ。

コンテキストウィンドウ(Context Window)
AIモデルが一度に処理できるデータ量の上限。「トークン」という単位で表される。Gemini 3.1 Flash Liveは入力128K、出力64Kトークンのコンテキストウィンドウを持ち、長時間の会話でも文脈を維持できる。

バイブコーディング(Vibe Coding)
自然言語や音声で意図・イメージを伝えながら、AIにコードやデザインを生成させる開発スタイル。従来のキーボード入力によるプログラミングに代わる新しい開発体験として注目されている。

IVR(自動応答システム)
Interactive Voice Responseの略。電話での問い合わせに対し、録音音声と番号入力で自動応答する従来型のシステム。AI音声エージェントはこれを代替・高度化するポテンシャルを持つ。

EU AI Act
欧州連合(EU)が制定したAI規制法。AIシステムのリスクレベルに応じた規制を設け、高リスクなAI用途には透明性の確保や人間による監視を義務付けている。AI生成コンテンツの開示義務もその一部として議論されている。

【参考リンク】

Google AI Studio(外部)
Gemini Live APIを通じてGemini 3.1 Flash Liveをプレビュー利用できる、Googleの公式AI開発プラットフォーム。

Gemini Live(外部)
Gemini 3.1 Flash Live搭載のリアルタイム音声対話サービス。旧モデル比で応答速度向上、会話把握長2倍を実現。

Gemini Enterprise for Customer Experience(外部)
Verizon・The Home Depot等が導入する企業向け音声AIサービス。コールセンター業務への実装を支援する。

Gemini 3.1 Flash Live モデルカード(Google DeepMind)(外部)
仕様・評価手法・安全性への取り組みを公開した公式ドキュメント。ベースモデルやベンチマーク詳細を確認できる。

Scale AI(外部)
AIモデルの評価・データラベリングを手がける米国企業。Audio MultiChallengeベンチマークの提供元でもある。

LiveKit(外部)
リアルタイム音声・映像通信インフラを提供するプラットフォーム。Gemini 3.1 Flash Liveとの連携パートナー。

【参考記事】

Build real-time conversational agents with Gemini 3.1 Flash Live(Google)(外部)
Google公式の開発者向けブログ。90言語超対応・背景雑音フィルタリング強化・Stitch/Atoの活用事例を詳述。

Gemini 3.1 Flash Live Model Card(Google DeepMind)(外部)
Gemini 3 Proベース・入力128K/出力64Kトークン等の仕様と、各ベンチマーク評価手法の詳細を公式に記載。

Gemini 3.1 Flash Live is Google’s most natural-sounding AI voice model yet(The Decoder)(外部)
Artificial AnalysisによるBigBench Audio計測値(High:95.9%/Minimal:70.5%)と価格情報を詳報。

Gemini Live gets its ‘biggest upgrade yet’ with Gemini 3.1 Flash Live(9to5Google)(外部)
対応90言語超・Search LiveのAI Mode200カ国展開・複雑な指示追従能力向上を速報で確認・報告した記事。

Gemini 3.1 Flash Live Brings Fluid Audio Conversations(iPhone in Canada)(外部)
音声AIの「不気味の谷」問題へのアプローチとSynthIDのリスク対策効果を、両面から分かりやすく解説。

Google Launches Gemini 3.1 Flash Live(Android Headlines)(外部)
会話把握長2倍・背景雑音除去の強化点と、IVR刷新へのポテンシャルをカスタマーサポート視点で分析。

【編集部後記】

音声AIが「機械と話している感覚」を超えた先に、どんな日常が待っているのか——私たちも一緒に想像しながら追いかけています。

あなたはすでに音声アシスタントを日常に取り入れていますか? もしまだ距離を感じているとしたら、その理由はどこにあるでしょう。技術が人間の感情を読み取れる時代に、私たちはAIとどんな関係を築いていきたいのか、ぜひ聞かせてください。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…