Google Gemini 3 Deep Think登場:Humanity’s Last ExamとARC-AGI-2で示した“次世代推論AI”の実力

[更新]2025年12月7日

Google Gemini 3 Deep Think登場:Humanity’s Last ExamとARC-AGI-2で示した“次世代推論AI”の実力 - innovaTopia - (イノベトピア)

12月4日、Gemini 3 Deep ThinkがGeminiアプリでGoogle AI Ultraサブスクライバー向けに提供開始された。

Gemini 3 Deep Thinkモードは、複雑なmath、science、logicの問題に対して高度な推論を行うよう設計されている。Humanity’s Last Examではツールを用いない設定で41.0%、ARC-AGI-2ではcode executionを用いた条件で45.1%というスコアを記録している。

これらの性能は、複数の仮説を同時に検討する advanced parallel reasoning に基づいていると説明されている。Gemini 3 Deep Think は、従来の Gemini シリーズで研究されてきた高度推論手法を発展させたモードであり、複雑な数学・プログラミング・論理問題に対する解法能力を強化した機能として位置付けられている。

Ultraサブスクライバーは、Geminiアプリのprompt barで“Deep Think”を選択し、model dropdownでGemini 3 Proを指定すると利用できる。

From: 文献リンクGemini 3 Deep Think is now available in the Gemini app.

【編集部解説】

Gemini 3 Deep Thinkは、Google DeepMindがGemini 3シリーズに持ち込んだ「高度推論モード」であり、これまで研究者やトップコンペティションの世界に閉じていたレベルの推論力を、サブスク前提とはいえ一般ユーザーの手元まで下ろしたのがポイントです。Humanity’s Last Exam 41.0%、ARC-AGI-2 45.1%という数字は、単に正解率の高さを示すだけでなく、「未知の問題に対してもある程度筋のいい仮説探索ができるか」という、フロンティアモデル同士の“地頭勝負”の指標になりつつあります。

Deep Thinkが特徴とする並列推論は、人間がホワイトボードに複数の仮説を書き出して比較検討する行為を、そのまま大規模モデル上で疑似的に再現するような仕組みです。1本の思考ルートを最後まで走らせるのではなく、いくつもの仮説を同時に走らせて途中で捨てたり組み合わせたりしながら精度を高めていくため、数学やプログラミング、論理パズルのような「一発正解が難しい問題」で特に効果を発揮します。

この能力が社会にもたらすインパクトは、単なる「宿題を早く解くツール」にはとどまりません。研究開発や高度な設計、新しいアルゴリズムや理論の探索など、これまで一部の専門家だけが取り組めた抽象度の高い仕事に対して、AIをブレインストーミングパートナーとして投入する動きが加速していくはずです。その一方で、高度推論モードが有料プランの奥にある構造は、「思考を外注できる人」と「そうでない人」の格差を拡大させるリスクも内包しています。

規制やガバナンスの観点からは、「どのレベルの意思決定までAIに委ねてよいのか」を、分野ごとにかなり細かく設計していく必要が出てきます。金融や医療、安全保障のように、一つの判断が大きな影響を与える領域では、Deep Thinkのようなモードを自動意思決定の“司令塔”に据えるのではなく、人間がレビューする前提で使うなど、チェックのフローを制度側で用意することが求められるでしょう。

今回のアップデートは「人間の知性をどこまで外付けできるのか」という問いを現実のプロダクトの形で突きつけてきた出来事でもあります。読者のみなさん一人ひとりが、「どこまでを自分で考え、どこからをAIに委ねたいのか」を言語化していくことが、これからのAI時代を自分の意思でデザインしていくうえで重要になってきそうです。

【用語解説】

Humanity’s Last Exam(HLE)
Scale AIとCenter for AI Safetyが共同開発した2,500問規模のマルチモーダルベンチマークで、数学、自然科学、人文社会など多分野にわたる難問でAIモデルの推論能力を測定する指標である。

ARC-AGI-2
抽象的なルールやパターンを推論させることで、未知の問題に対する汎用的な問題解決能力を評価するベンチマークであり、AGIに近い能力の有無を測る試金石として扱われている。

Gemini 3 Deep Think
Google DeepMindのGemini 3向けに提供される高度推論モードであり、複数の仮説を並列に検討する仕組みによって、複雑な数学・科学・ロジック問題に強みを持つ推論特化機能である。

並列推論(parallel reasoning)
単一の思考ルートではなく、複数の仮説やアプローチを同時に展開し、比較・統合しながら最終的な解答を導く推論手法であり、Deep Thinkの高精度化の鍵となっている。

【参考リンク】

Gemini 3 Deep Think 公式ブログ(外部)
Gemini 3 Deep Thinkモードの概要、HLEやARC-AGI-2のスコア、利用方法を紹介するGoogle公式の告知記事である。

Gemini 3 モデル概要ページ(外部)
Gemini 3ファミリー全体の仕様や主要ベンチマークの成績、Deep Thinkモードの位置付けを一覧できるGoogle DeepMind公式の解説ページである。

Humanity’s Last Exam 公式サイト(外部)
HLEベンチマークの設計思想や問題構成、マルチモーダル評価の方針など、試験の詳細仕様を説明している公式情報サイトである。

【参考記事】

A new era of intelligence with Gemini 3(外部)
Gemini 3シリーズ全体のアップデートを紹介し、Deep Thinkが複数のベンチマークで既存モデルを上回る推論性能を示していることを解説するGoogle公式記事である。

【編集部後記】

Gemini 3 Deep Thinkのようなモードが一般ユーザーにも届き始めると、「どこまでを自分で考え、どこからをAIに任せるか」という境界線が、静かに問われていくのだと感じています。正解に早く辿り着くこと以上に、そのプロセスをどうデザインするかが、これからのクリエイティブや仕事の価値になっていくのかもしれません。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…
advertisements
読み込み中…