innovaTopia

ーTech for Human Evolutionー

Google Gemini 2.5、「Deep Think」機能で思考プロセスを強化 – AIの推論能力が人間に近づく

Google Gemini 2.5、「Deep Think」機能で思考プロセスを強化 - AIの推論能力が人間に近づく - innovaTopia - (イノベトピア)

Last Updated on 2025-05-21 17:39 by admin

GoogleはGoogle I/O 2025(2025年5月20日開催)において、AI言語モデル「Gemini 2.5」シリーズの大幅な機能強化を発表した。主な発表内容は以下の通りである。

Gemini 2.5 Proに「Deep Think」と呼ばれる実験的な強化推論モードが追加された。これは応答前に複数の仮説を検討できる機能で、最も難しい数学とコーディングのベンチマークで印象的なスコアを示している。具体的には、2025年米国数学オリンピック(USAMO)や競争レベルのコーディングベンチマークLiveCodeBenchでリードし、マルチモーダル理解と推論をテストするMMUでは84.0%のスコアを記録した。

Gemini 2.5 ProはWebDev Arenaリーダーボードで1420のELOスコア(中級から熟練レベル)を獲得し、人間の好みに基づいてAIを評価するLMArenaリーダーボードのすべてのカテゴリでもリードしている。

Gemini 2.5 Flashも全面的に強化され、推論、マルチモダリティ、コード、長文脈のベンチマーク全体で性能が向上した。さらに、20〜30%少ないトークンを使用するため効率性も向上している。

両モデルに追加された新機能には以下が含まれる

  • より自然な会話体験を実現するネイティブ音声出力
  • 複数の話者をサポートするテキスト読み上げ機能(24以上の言語に対応)
  • モデルの思考プロセスを明確に整理する「思考サマリー」機能
  • 開発者がモデルの思考に使用するトークン数を制御できる「思考予算」機能
  • Project Marinerのコンピュータ使用機能
  • 間接的なプロンプトインジェクション攻撃に対するセキュリティ強化

Live APIには、音声・映像入力とネイティブ音声出力対話のプレビュー版が導入され、より自然で表現力豊かな会話体験が可能になった。また、感情対話(ユーザーの声の感情を検出して適切に応答)、プロアクティブ音声(背景の会話を無視して応答タイミングを判断)、思考機能(より複雑なタスクをサポート)などの実験的な機能も提供されている。

Gemini 2.5 Flashは現在、Google AI Studio(開発者向け)、Vertex AI(企業向け)、Geminiアプリ(一般ユーザー向け)でプレビュー利用可能で、2025年6月初旬に本番環境で一般提供される予定である。Gemini 2.5 Proは「Deep Think」機能について安全性評価を実施中で、現在は信頼できるテスターがAPI経由で利用できる状態となっている。安全性評価が完了次第、Google AI Ultraサブスクリプションの一部として一般消費者に提供される予定である。

Gemini 2.5 Proは100万トークンのコンテキストウィンドウを持ち、200万トークンは近日提供予定である。1回のリクエストで最大64,000トークンを生成できる。ナレッジカットオフ日は2025年1月である。

References:
文献リンクInside Google’s AI leap: Gemini 2.5 thinks deeper, speaks smarter and codes faster

【編集部解説】

Googleが発表したGemini 2.5シリーズは、AIモデルの進化における重要なマイルストーンと言えるでしょう。今回のアップデートで特に注目すべきは「Deep Think」機能です。この機能により、AIが複数の仮説を検討してから回答するという、人間の思考プロセスに近い推論が可能になりました。

Deep Thinkの仕組みは、AlphaGoの開発で得られた知見に基づいています。AlphaGoが示したように、「考える時間」を増やすことでAIの性能は向上します。この原理をGemini 2.5に応用し、並列処理技術を含む最先端の思考・推論研究を取り入れた結果、特に数学やコーディングなどの複雑な問題解決において顕著な成果を上げています。

ベンチマークスコアを見ると、Gemini 2.5 ProはWebDev ArenaやLMArenaなどの主要リーダーボードでトップに立っています。特に2025年米国数学オリンピック(USAMO)やLiveCodeBenchでの好成績は、モデルの高度な推論能力を示す証拠と言えるでしょう。

技術的な詳細を見ると、Deep Thinkの仕組みはOpenAIのo1-proやo3-proモデルに似ている可能性があります。これらは問題に対する最適な解決策を検索・合成するエンジンを使用していると考えられています。実際、GoogleはDeep ThinkがOpenAIのo3モデルをMMUUベンチマークで上回ったと発表しています。

音声機能の強化も今回のアップデートの大きな特徴です。新しい音声出力機能により、より自然な会話体験が可能になりました。特に24以上の言語に対応した複数話者のテキスト読み上げ機能は、グローバルなコミュニケーションツールとしての可能性を広げています。

「思考サマリー」機能も注目に値します。これはAIの思考プロセスを構造化された形式で表示する機能で、AIの「ブラックボックス」問題に対する一つの解決策と見ることができます。AIがどのように結論に至ったかを理解できることで、ユーザーはより信頼性の高い判断が可能になります。

効率性の向上も見逃せません。Gemini 2.5 Flashは前モデルと比較して20〜30%少ないトークンで動作し、計算資源の節約に貢献しています。これはAIの持続可能性という観点からも重要な進歩です。

また、「Agent Mode」と呼ばれる新機能も注目されています。これはProject Marinerを基盤としており、ユーザーの目標を理解し、ウェブ検索やGoogleアプリ、外部ツールを活用してタスクを完了する機能です。これにより、Geminiは単なる質問応答システムから、ユーザーに代わって行動するエージェントへと進化しています。

今後のAI開発において、技術革新と安全性のバランスをどう取るかは引き続き重要な課題となるでしょう。innovaTopiaとしては、これらの先端技術の可能性を追求しつつ、その社会的影響についても注視していきます。

【用語解説】

Deep Think(ディープシンク)
Gemini 2.5 Proに搭載された実験的な強化推論モード。複数の仮説を検討してから回答する機能で、人間の思考プロセスに近い推論を可能にする。これは、チェスプレイヤーが次の一手を打つ前に複数の手を頭の中で検討するのに似ている。

トークン
AIモデルが処理する言語の最小単位。英語では単語や単語の一部、日本語では文字や短い単語に相当する。100万トークンは約750,000語(小説約7冊分)の文章に相当する。

コンテキストウィンドウ
AIが一度に処理・記憶できる情報量。Gemini 2.5 Proの100万トークン(近日200万トークンに拡張予定)は、長時間の会話や大量の文書を一度に処理できることを意味する。

ELOスコア
チェスなどの対戦ゲームで使われる実力評価システム。AIの性能比較にも応用され、数値が高いほど性能が高いことを示す。

マルチモーダル
テキスト、画像、音声、動画など複数の形式(モード)の情報を理解・処理できる能力。

Model Context Protocol (MCP)
2024年11月にAnthropicが発表したオープンスタンダード。AIモデルと外部ツール・データソースとの統合方法を標準化するフレームワーク。

思考サマリー
AIの思考プロセスを構造化された形式で表示する機能。AIの「ブラックボックス」問題に対する解決策の一つ。

思考予算
開発者がモデルの思考に使用するトークン数を制御できる機能。処理速度とコストの最適化に役立つ。

Agent Mode
Project Marinerを基盤とした機能で、ユーザーの目標を理解し、ウェブ検索やGoogleアプリ、外部ツールを活用してタスクを完了する。左側にチャット、右側にブラウザのようなパネルが表示される分割ビューで動作する。

【参考リンク】

Google DeepMind(外部)
Googleの人工知能研究部門。安全なAIシステムの研究開発を行っている。

Gemini公式ページ(外部)
Geminiモデルファミリーの詳細情報、デモ、技術仕様が掲載されている。

Google AI Studio(外部)
開発者向けのGeminiモデルを試せるプラットフォーム。無料で利用可能。

Vertex AI(外部)
企業向けのGoogleのAIプラットフォーム。本格的なAIアプリケーション開発・デプロイが可能。

Gemini API(外部)
開発者がGeminiモデルをアプリケーションに統合するためのAPI。

【参考動画】

【編集部後記】

皆さんは普段どのようにAIアシスタントを活用されていますか?Gemini 2.5の「Deep Think」機能は、複数の仮説を検討してから回答するという、より人間らしい思考プロセスを実現しています。これは日常のタスクから複雑な問題解決まで、AIとの協働の可能性を大きく広げるかもしれません。もし今、AIツールを使っているなら、どんな場面でより深い思考能力が役立つと感じますか?また、AIの「考える過程」が見えることで、信頼感は高まるでしょうか?ぜひSNSでご意見をお聞かせください。

【関連記事】

AI(人工知能)ニュースをinnovaTopiaで読む

投稿者アバター
TaTsu
デジタルの窓口 代表 デジタルなことをまるっとワンストップで解決 #ウェブ解析士 Web制作から運用など何でも来い https://digital-madoguchi.com
ホーム » AI(人工知能) » AI(人工知能)ニュース » Google Gemini 2.5、「Deep Think」機能で思考プロセスを強化 – AIの推論能力が人間に近づく