ーTech for Human Evolutionー

Google Gemini 2.5 Flashが「思考予算」機能を搭載、AI推論コストを最大83%削減――開発者向けプレビュー提供開始

AI（人工知能）ニュース

Headline News

野村貴之

[公開]

2025年4月18日11:29

[更新]2025年7月2日

image - 2025-04-18T110027855 - innovaTopia

Googleは2025年4月17日、AIモデル「Gemini 2.5 Flash」のプレビュー版をGoogle AI StudioおよびVertex AIで開発者向けに公開した。Gemini 2.5 Flashは、従来のGemini 2.0 Flashを基盤に推論能力を強化しつつ、高速かつ低コストを維持している。最大100万トークンの入力コンテキストと64,000トークンの出力に対応し、テキスト・画像・動画・音声のマルチモーダル入力をサポートする。
新機能「Thinking Budget（思考予算）」により、開発者は推論プロセスの深度を0～24,576トークンの範囲で細かく設定できる。思考予算を0に設定した場合、従来モデルと同等のコスト（入力100万トークンあたり0.15ドル、出力100万トークンあたり0.60ドル）で利用可能。推論を有効化すると出力100万トークンあたり最大3.50ドルとなる。Gemini 2.5 Flashは2025年1月時点の知識を持ち、現在はプレビュー段階。今後、一般提供が予定されている。

from:https://venturebeat.com/ai/googles-gemini-2-5-flash-introduces-thinking-budgets-that-cut-ai-costs-by-600-when-turned-down/

【編集部解説】

Gemini 2.5 Flashが搭載する「思考予算」機能は、AIの推論精度とコストのバランスを柔軟に調整できる点で画期的です。従来のAIモデルは、タスクごとに固定の計算リソースを消費していましたが、本モデルでは開発者が用途や予算に応じて推論の深さを細かく設定できるため、単純なタスクは低コストで、高度な分析や複雑な質問には十分なリソースを割り当てることができます。

この仕組みは、AI導入コストが課題となっていた中小企業やスタートアップにとって大きな追い風となるでしょう。たとえば、FAQ対応や簡易な自動応答ではコストを抑えつつ、重要な意思決定や専門的な解析には高精度な推論を活用する、といった柔軟な運用が可能です。

一方で、推論深度を自動または手動で調整する際のコスト予測が難しい点や、医療や金融など高リスク領域で浅い推論が誤用されるリスクも指摘されています。今後は、利用ガイドラインや自動最適化の精度向上、国際的な規制整備も求められるでしょう。

長期的には、AIのコストパフォーマンスが大幅に向上することで、より多くの現場やプロジェクトでAIが身近な存在となることが期待されます。日本では、少子高齢化や人手不足対策、業務効率化など社会課題の解決にもこの技術が貢献する可能性が高いと考えられます。

【編集部追記】

料金体系の対象範囲について
本記事で紹介した料金表は、Googleが提供する「Gemini API」および「Vertex AI」を利用する開発者向けのものです。一般ユーザーが直接利用するGeminiアプリ（無料版/有料版）では、思考予算の手動設定はできず、モデルが自動的に複雑度に応じた推論を行います。

開発者への具体的な利益

コスト最適化の柔軟性
- 単純なQAボットや定型文生成では思考予算を0に設定し、従来モデル（2.0 Flash）と同等の低コスト（出力100万トークンあたり$0.60）を維持可能。
- 複雑なデータ分析やマルチステップ推論が必要なタスクでは、思考予算を最大24,576トークンに設定し、高精度な出力（同$3.50）を選択できる。
PoCから本番環境へのシームレス移行
- プロトタイプ開発時は低予算でコストを抑制し、商用化時に段階的に推論深度を増加させる「段階的スケーリング」が可能。
- 例：保険会社の問い合わせシステムで、初期は$1.00/問の予算で実装し、精度検証後$3.00/問に調整。
リソース予測の精度向上
- APIパラメータ（thinking_budget）で最大コストを事前に設定可能。
- 例：月間$5,000の予算内で、推論深度の自動調整を許可し、予算超過を防止。
マルチモーダル処理の効率化
- 動画（最大45分）・音声・文書を統合処理する際、リソースを重点的に配分する領域を指定可能。
- 例：動画要約では映像解析に高予算、字幕生成に低予算を割り当てる。
業界別ユースケースの拡大
- 製造業：外観検査（低予算）と疲労度推定（高予算）のハイブリッド運用
- 金融：簡易問い合わせ（$0.60）とリスク分析（$3.50）の使い分け
- ヘルスケア：患者の症状整理（低予算）と治療方針推論（高予算）

開発者コミュニティへの影響
スタートアップや中小企業が、大企業と同等のAIリソースをコスト効率的に活用できる環境が整備されます。特に、以下3つの領域でイノベーションが加速すると予想されます：

エッジAI：低予算設定でIoTデバイスへの実装が可能に
エージェントシステム：タスクごとの推論深度を動的に変更する自律型AIの開発
マルチモーダル分析：動画・音声・テキストの統合処理におけるリソース最適化

この機能は、AI開発の民主化をさらに推し進める画期的なツールとなり得ます。

【用語解説】

Gemini 2.5 Flash
Googleが開発した生成AIモデル。従来の「Gemini 2.0 Flash」より推論能力が強化され、速度とコスト効率も高い。マルチモーダル（テキスト・画像・動画・音声）入力に対応し、最大100万トークンの入力が可能。
思考予算（Thinking Budget）
AIの推論プロセスに割り当てる計算リソース（トークン数）を開発者が調整できる機能。必要に応じて推論深度を変え、コストや応答速度とのバランスを取ることができる。
ハイブリッド推論モデル（Hybrid Reasoning Model）
シンボリック推論（ルールベース）とニューラルネットワーク（機械学習）を組み合わせたAIモデル。論理的な推論とパターン認識の両方の強みを活かし、複雑な問題解決が可能になる。

【参考リンク】

Google公式ブログ：Gemini 2.5 Flash Preview
2025年4月17日公開。Gemini 2.5 Flashのプレビュー提供開始を正式発表。思考予算（Thinking Budget）による推論コストの調整や、ハイブリッド推論モデルの特徴が解説されている。
TechCrunch：Google’s newest Gemini AI model focuses on efficiency
Gemini 2.5 Flashの効率性とコスト最適化にフォーカス。高頻度・リアルタイム用途に適した設計や、オンプレミス対応の今後の展開についても触れている。
VentureBeat：Google’s Gemini 2.5 Flash introduces ‘thinking budgets’ that cut AI costs by 600% when turned down
Gemini 2.5 Flashの「思考予算」機能の詳細と、ビジネス現場でのコスト削減効果を解説。Google DeepMind関係者のコメントも掲載。

AI（人工知能）ニュース