Googleは2025年12月12日、ライブ音声エージェント向けにアップデート版のGemini 2.5 Flash Native Audioをリリースした。このモデルはGoogle AI Studio、Vertex AI、Gemini Live、Search Liveで利用可能となり、Search Liveには初めてネイティブオーディオ機能が搭載された。
主な改善点は3つある。外部関数呼び出しの信頼性が向上し、ComplexFuncBench Audioで71.5%のスコアを記録した。開発者の指示への遵守率が84%から90%に向上した。マルチターン会話の品質が大幅に改善された。Shopify、United Wholesale Mortgage、Newo.aiなどの企業がすでにこの技術を活用しており、UWMは2025年5月のローンチ以降14,000件を超えるローンを生成した。
また、Geminiは70以上の言語と2000の言語ペアに対応したライブ音声翻訳機能を導入した。この機能は本日よりGoogle Translateアプリで米国、メキシコ、インドのAndroidデバイス向けにベータ版として展開される。
From:
Improved Gemini audio models for powerful voice interactions
【編集部解説】
今回のGemini 2.5 Flash Native Audioのアップデートは、音声AIの世界において極めて重要な技術的マイルストーンとなります。なぜなら、このアップデートは単なる性能向上ではなく、人間とAIの対話における根本的な課題を解決しようとする試みだからです。
従来の音声AIシステムは、音声をいったんテキストに変換し、それを処理してから再び音声に戻すという多段階のプロセスを経ていました。しかし、Geminiの「ネイティブオーディオ」アプローチは、音声を音声のまま理解し生成します。これにより、話者の感情、イントネーション、間の取り方といった、人間のコミュニケーションに不可欠な非言語情報を保持できるのです。
特筆すべきは「関数呼び出し」機能の劇的な改善です。ComplexFuncBench Audioという評価指標で71.5%のスコアを記録し、元記事のグラフによれば以前のバージョンやOpenAIのgpt-realtimeモデルと比較してもトップの性能を示しています。この数字が意味するのは、AIが会話の途中で外部システムにアクセスし、リアルタイム情報を取得しながらも、会話の自然な流れを損なわないということです。たとえば、ユーザーが「明日の東京の天気は?」と尋ねた際、AIは気象APIを呼び出し、その結果を会話に織り込みながら応答できます。
開発者向けの指示遵守率が84%から90%へと6ポイント向上した点も見逃せません。これは、企業がカスタマーサポートや受付業務に音声AIを導入する際の信頼性が大幅に高まったことを意味します。実際、United Wholesale Mortgageは2025年5月のローンチ以降、このテクノロジーを活用して14,000件を超えるローンを処理したと報告しています。
もう一つの革新は、Google Translateアプリに導入されたライブ音声翻訳機能です。70以上の言語、2000の言語ペアをサポートし、話者のトーン、ペース、ピッチまで保持します。これまでの機械翻訳では失われがちだった「話し方の個性」を残すことで、より人間らしいコミュニケーションが可能になるのです。現在は米国、メキシコ、インドのAndroidデバイスでベータ版として展開されており、2026年にはiOSや他地域にも拡大予定です。
ただし、潜在的な課題も存在します。音声認識の精度は騒音環境や訛りによって影響を受ける可能性があり、Googleはノイズ耐性を強調していますが、実環境でのテストが重要になるでしょう。また、ライブ音声翻訳が社会にもたらす影響についても考慮が必要です。言語の壁が低くなることで国際的な交流は促進されますが、同時に誤訳による誤解のリスクや、文化的ニュアンスの喪失といった問題も生じる可能性があります。
さらに、この技術が普及すれば、通訳者や翻訳者といった職業の在り方にも影響を与えるでしょう。しかし、人間の通訳者が持つ文化的理解や状況判断力は、現時点ではAIが完全に代替できるものではありません。むしろ、AIが基本的なコミュニケーションを支援し、人間の専門家がより高度な場面に注力するという協働関係が生まれるかもしれません。
長期的には、この技術は教育、医療、ビジネスといったあらゆる分野に変革をもたらす可能性を秘めています。言語の壁を越えた知識の共有、国際的な協力関係の構築、そして多様な文化背景を持つ人々の相互理解。
【用語解説】
ネイティブオーディオ(Native Audio)
音声をテキストに変換せず、音声のまま直接処理する技術。従来の音声AIは「音声→テキスト→処理→テキスト→音声」という多段階変換を行っていたが、ネイティブオーディオでは音声を音声として扱うため、イントネーションや感情といった非言語情報を保持できる。
関数呼び出し(Function Calling)
AIが会話の文脈に応じて、外部のAPI(天気情報、データベース、予約システムなど)を自動的に呼び出し、リアルタイム情報を取得する機能。ユーザーが明示的に指示しなくても、AIが必要と判断した時点で実行される。
ComplexFuncBench Audio
複雑な関数呼び出し能力を評価するベンチマーク。マルチステップでの関数呼び出しや、さまざまな制約条件下での性能を測定する評価指標。Gemini 2.5 Flash Native Audioは71.5%のスコアを記録した。
【参考リンク】
Google AI Studio(外部)
Geminiモデルを試せる無料開発環境。Gemini 2.5 Flash Native Audioを実際に試すことができる。
Vertex AI(外部)
GoogleのエンタープライズAIプラットフォーム。Gemini 2.5 Flash Native Audioの商用展開に対応。
Google Translate(外部)
Googleの無料翻訳サービス。Gemini 2.5を活用したライブ音声翻訳機能を搭載。
Shopify(外部)
EコマースプラットフォーマーのShopify。AIアシスタント「Sidekick」にGemini 2.5を統合。
Gemini API Documentation(外部)
Gemini APIの公式ドキュメント。音声生成や統合方法などの技術情報を提供。
【参考記事】
Bringing state-of-the-art Gemini translation capabilities to Google Translate(外部)
Google公式ブログ。ライブ音声翻訳機能の詳細と英語と約20言語間の対応を発表。
Google’s upgraded Gemini 2.5 Flash Native Audio model makes AI more conversational(外部)
指示遵守率の84%から90%への向上とComplexFuncBench Audioでの71.5%スコアを詳報。
Google Translate now lets you hear real-time translations in your headphones(外部)
ライブ音声翻訳が米国、メキシコ、インドで展開開始。iOSは2026年予定と報告。
【編集部後記】
音声AIが人間の会話に近づくほど、私たちのコミュニケーションの在り方そのものが変わっていくのかもしれません。言語の壁がなくなった世界で、あなたはどんな人と話してみたいですか?そして、AIが感情やニュアンスまで理解するようになったとき、人間にしかできないコミュニケーションとは何だと思いますか?
ぜひ、みなさんの考えを聞かせてください。innovaTopia編集部も、読者のみなさんと一緒にこのテクノロジーの未来を考えていきたいと思っています。































