Gemini 3.5 Flash発表｜Shopify・Salesforce・Macquarie Bankも導入、AI業界の階層が崩れる

「100ページの書類を読んで要約する」「数週間かかる税務処理を自律的に進める」――これまで開発者の専門領域だったAI活用が、企業の日常業務に流れ込み始めています。

Googleが2026年5月19日のGoogle I/Oで発表したGemini 3.5 Flashは、Shopify、Xero、Macquarie Bankといった世界の主要企業がすでに業務に組み込んだ「行動するAI」です。ベンチマークでは前世代Proを上回り、価格と速度を両立。新しいモデルの登場以上に、AIが「使われる場所」が変わり始めた瞬間を捉えます。

Googleが2026年5月19日に開催した「Google I/O 2026」で、最新AIモデルファミリー「Gemini 3.5」を発表しました。その第一弾として提供開始された「Gemini 3.5 Flash」は、わずか3か月前に登場した前世代フラッグシップ「Gemini 3.1 Pro」を、コーディングおよびエージェント系の一部主要ベンチマークで上回る性能を示しています。

Terminal-Bench 2.1で76.2%、GDPval-AAで1,656 Elo、MCP Atlasで83.6%、CharXiv Reasoningで84.2%を記録し、出力速度は他の最先端モデルの4倍。GeminiアプリやGoogle検索の「AIモード」で提供されるほか、Google AntigravityやGemini Enterpriseを通じて開発者・企業にも即日展開されました。Shopify、Macquarie Bank、Salesforce、Ramp、Xero、Databricksなどがすでに導入を進めており、自律型エージェントAIが実社会の業務に変化をもたらし始めている段階を示す発表です。

From: Gemini 3.5：行動を起こす最先端の知能

【編集部解説】

Googleが今回発表した「Gemini 3.5 Flash」は、AI業界における「モデル階層」の常識を揺さぶる可能性を秘めた一手です。これまで「Flash」シリーズといえば、軽量・高速・低コストで、フラッグシップの「Pro」モデルに性能で劣るものというのが業界共通の認識でした。しかし今回、わずか3か月前に登場したばかりのGemini 3.1 Proを、コーディングおよびエージェント系の一部主要ベンチマークで上回るFlashモデルが登場したのです。

Google DeepMindが公開した公式モデルカードによれば、3.5 FlashはTerminal-Bench 2.1で76.2%対70.3%、MCP Atlasで83.6%対78.2%、GDPval-AAで1,656 Elo対1,314 Eloという差で3.1 Proを上回っています。ただし、純粋推論系のMRCR v2、Humanity’s Last Exam、ARC-AGI-2などでは依然として3.1 ProやGPT-5.5が上回る項目もあり、「全方位的に上回った」わけではない点は冷静に押さえておく必要があります。

この事実が示唆するのは、AI開発のサイクルが急速に短縮されているという編集部の見立てです。Pro級の性能をFlash級の速度で再現するまでに、わずか3か月程度しか要していません。この圧縮が今後も続けば、フラッグシップと効率モデルの区別自体が曖昧になっていく可能性もあると、筆者は予測しています。

技術的な核心は「Long-horizon tasks(長期的タスク)」への対応力にあります。これは単発の質問応答ではなく、複数のステップを跨いで計画・実行・修正を繰り返す、いわば「仕事をやり切る」能力です。具体例として、Antigravityというエージェント開発環境上で、Gemini 3.5 Flashが2つのサブエージェントを連携させ、AlphaGoの論文を読み込んだ上で、わずか6時間でプレイ可能なゲームをコーディングしたデモが公開されています。

価格面については、慎重な確認が必要です。Google AI for Developersの公式API価格ページによれば、Gemini 3.5 FlashのStandard価格は入力100万トークンあたり1.50ドル、出力100万トークンあたり9.00ドルと記載されています。一方、Priority価格では入力100万トークンあたり2.70ドル、出力100万トークンあたり16.20ドルとなっており、利用形態によって価格が異なります。これは従来のFlash系モデル(例：Gemini 3 Flash Previewの入力0.50ドル/出力3.00ドル)と比較すると数倍の価格帯に位置付けられました。Google公式も「他の最先端モデルと比較して、多くの場合、半分以下のコストに抑えることが可能」と説明していますが、これはあくまで競合フロンティアモデルとの比較であり、自社内のFlash系列との比較では値上げに見える点には留意が必要です。「Flash」というブランドが、もはや「廉価版」ではなく「実用エージェント用の標準モデル」へと再定義されたことを示す価格設定と言えるでしょう。

競合との関係性を見ると、状況は決して一方的なものではありません。Google公式のベンチマーク比較表によれば、GPT-5.5はTerminal-Bench 2.1、GDPval-AA、OSWorld、MRCR、ARC-AGI-2などで3.5 Flashを上回る一方、MCP AtlasやFinance Agentでは3.5 Flashが優位に立っています。Claude Opus 4.7はSWE-Bench Proで64.3%、3.5 Flashが55.1%と、コーディング系で先行する場面もあります。Geminiの強みは「準フラッグシップ品質を、出力速度と配備規模で提供する」というポジショニングにあると言えそうです。

実社会への影響範囲は、すでに金融・小売・会計といった「文書処理量が膨大な業界」を中心に広がり始めています。Macquarie Bankが100ページ超の書類から推論で必要情報を抽出し、Xeroが米国の1099税務申告フォーム作成のような数週間規模のワークフローを自律エージェントに委ねる事例は、単なる業務効率化ではなく、「ホワイトカラーの定型業務そのものをAIが引き受ける」段階への移行を示唆しているように見えます(一般化は今後の事例蓄積を待つ必要があります)。

ポジティブな側面としては、これまで開発リソースの問題でAI活用に踏み切れなかった中小企業や個人開発者にも、最先端の知能が比較的低コストで開放されたことが挙げられます。Geminiアプリと検索の「AIモード」では無料プランでも利用でき(利用上限・地域制限あり)、開発者向けにも即日一般提供となった点は、技術の民主化という観点で大きな意味を持ちます。

一方で、潜在的なリスクも見過ごせません。エージェントが「自律的に複数ステップを実行する」ということは、人間の目が届かない領域での意思決定が増えることを意味します。Google自身もFrontier Safety Frameworkへの準拠やInterpretability tools(解釈可能性ツール)の導入を強調しており、モデルカード上は3.5 FlashがCritical Capability Levels(重大能力水準)に達していないとされています。それでも、エージェントの暴走、意図しないツール呼び出し、機密情報の漏洩リスクなど、新しい課題は確実に増えていくと筆者は見ています。「人間の監視のもと」という前提条件をどこまで実装で担保できるかが、今後の信頼性を左右する論点になっていくでしょう。

規制面では、EUのAI Actが2025年8月から汎用AIモデル(GPAI)に対する義務を適用開始しており、米国もAI RMFなどの枠組みを整備しています。ただし、自律型エージェント特有のリスク(複数ツール呼び出し、長期的タスクの責任所在)への対応は、まだ成熟していないと感じる場面が多いのが現状です。今後、エージェントの行動責任、ログの保存義務、判断プロセスの説明可能性といった論点が、規制議論の中心に浮上していく可能性があります。

長期的な視点で見ると、今回の発表で象徴的なのは、Gemini 3.5 Proが「来月」へと延期された点です。Business Insiderなど海外メディアは、I/Oの会場でため息が漏れたと報じています(Google公式情報ではないため、二次報道として扱う必要があります)。AI業界の競争軸が「最先端モデルを出すこと」から「最先端モデルを安価かつ大規模に配備すること」へと移りつつある、というのが筆者の読み解きです。フラッグシップの華やかな発表よりも、Flashの実装速度こそが市場を動かす時代に入ったのではないか――この記事は、その兆候を読み取る素材として価値があると感じます。

【用語解説】

Long-horizon tasks(長期的タスク)
実行までに多くのステップを要する長期的な処理を指す。単発の質問応答ではなく、計画立案・実行・検証・修正を繰り返しながら、最終的なゴールに到達する一連のワークフロー全体をAIが担うことを意味する。

エージェント(AIエージェント)
ユーザーから与えられた目的に対して、自律的にタスクを分解し、ツールを呼び出しながら、複数のステップを実行して結果を出すAIシステムのこと。従来のチャット型AIが「対話」を中心とするのに対し、エージェントは「行動」を中心に据える。

サブエージェント
特定の役割を持たせた複数のAIエージェントが連携して動作する仕組みのなかで、それぞれの専門タスクを担う個別エージェントを指す。複雑なワークフローを並列処理することで、処理速度と精度を両立する。

Terminal-Bench 2.1
AIエージェントがターミナル(コマンドライン)環境でどれだけ的確に操作できるかを測定するベンチマーク。ファイル操作やシステム制御など、開発者の実務に近いタスクで評価される。

GDPval-AA
実世界のエージェントタスクにおけるLLMの能力をElo(イロ)レーティング方式で測定する評価指標。Eloは元来チェスのレーティングシステムで、対戦結果から相対的な強さを数値化する仕組み。

MCP Atlas
複数のAIエージェントが協調して動作する能力を評価するベンチマーク。MCPはModel Context Protocolの略で、AIモデルが外部ツールと連携するための共通プロトコルを指す。

CharXiv Reasoning
学術論文に含まれる図表(チャート)を理解し、推論する能力を測定するマルチモーダル評価ベンチマーク。テキストだけでなく、画像情報の解釈力が問われる。

SWE-Bench Pro
ソフトウェアエンジニアリングの実問題を解決する能力を評価するベンチマーク。GitHubの実際のIssueとプルリクエストを基に、AIがバグ修正や機能追加をどれだけ正確に行えるかを測定する。

AlphaGo
Google DeepMindが2016年に発表した囲碁AI。世界トップ棋士に勝利したことで知られ、強化学習とディープラーニングを組み合わせたAI研究の歴史的マイルストーンとなった。

Standard価格／Priority価格
Gemini APIにおける2つの利用形態。Standardは標準的な利用向けの基本価格、Priorityは優先処理や安定したスループットを必要とする本番環境向けに設定された上位プランの価格。

Frontier Safety Framework
Google DeepMindが定めた、最先端AIモデルの開発における安全基準のフレームワーク。深刻なリスクを伴いうる能力(サイバー攻撃、CBRN関連など)について、評価と緩和策の指針を体系化したもの。

Critical Capability Levels(重大能力水準)
Frontier Safety Framework内で定義される、AIモデルが特定領域で深刻なリスクをもたらしうる能力水準の閾値。これに達した場合、追加の安全対策や配備制限が必要となる。

CBRN
Chemical(化学)、Biological(生物)、Radiological(放射性物質)、Nuclear(核)の頭文字を取った略語。大量破壊につながりうる物質・技術の総称として、AIの安全議論で頻出する。

Interpretability tools(解釈可能性ツール)
AIモデルが回答を出力する前に、その内部的な推論プロセスを検証・理解するための技術。ブラックボックスとされてきたAIの判断根拠を可視化する取り組みで、安全性確保の鍵となる。

Generative UI
ユーザーの入力やコンテキストに応じて、AIがその場でUI(ユーザーインターフェース)を動的に生成する仕組み。固定されたデザインではなく、対話のなかで最適な画面が組み上がる。

1099フォーム
米国の税務申告書類の一種で、給与所得以外の支払い(報酬、利子、配当など)を報告するために使用される。フリーランスや個人事業主との取引が多い企業では、作成・管理が煩雑な業務となる。

Trusted Testers
Googleが新機能や新サービスを正式リリース前に提供する、招待制のテストユーザーグループ。フィードバックを通じて製品の品質向上に貢献する役割を担う。

AI Act(EU)
EUが2024年に成立させた、AIに関する包括的な規制法。リスクベースのアプローチを取り、汎用AIモデル(GPAI)への義務は2025年8月から段階的に適用が始まっている。

AI RMF(AIリスクマネジメントフレームワーク)
米国国立標準技術研究所(NIST)が策定した、AIシステムのリスク管理に関する自主的なガイドライン。透明性、信頼性、安全性などの観点から設計指針を提供する。

Next.js
ReactをベースにしたモダンなWebアプリケーション開発フレームワーク。サーバーサイドレンダリングや静的サイト生成など、高性能なWeb開発を効率化する機能を備える。

【参考リンク】

Google DeepMind – Gemini 3.5 Flash 公式ページ（外部）
Gemini 3.5 Flashの公式モデルページ。性能評価、デモ動画、パートナー企業の事例が公開されている。

Gemini 3.5 Flash モデルカード（外部）
ベンチマーク詳細、Frontier Safety評価、入出力仕様などGemini 3.5 Flashの技術仕様を公式に整理。

Gemini API 公式価格ページ（外部）
Gemini APIの公式価格ページ。StandardとPriorityで分かれた各モデルのトークン単価が正確に確認できる。

Google AI Studio（外部）
開発者向けにGemini APIを試せるWebプラットフォーム。プロンプト設計やモデル比較が無料で行える環境。

Shopify 公式サイト（外部）
カナダ発のEコマースプラットフォーム企業。世界中の加盟店向けにオンラインストア構築機能を提供している。

Macquarie Bank 公式サイト（外部）
オーストラリアを拠点とする金融サービス企業。投資銀行業務から個人向け銀行業務まで幅広く展開している。

Salesforce Agentforce 公式ページ（外部）
SalesforceのAIエージェント構築プラットフォーム。CRM領域での自律型エージェント運用を実現する。

Ramp 公式サイト（外部）
法人向け経費管理・財務オートメーションのフィンテック企業。OCRと推論を組み合わせた請求書処理に注力。

Xero 公式サイト（外部）
ニュージーランド発の中小企業向けクラウド会計ソフトウェア企業。世界各国で会計・税務業務を支援する。

Databricks 公式サイト（外部）
データ分析・AI開発のための統合プラットフォームを提供する企業。レイクハウスアーキテクチャの提唱元。

EU AI Act Service Desk（外部）

欧州委員会が運営するAI Act関連の公式FAQページ。GPAI義務の適用時期や対象範囲を確認できる。

【参考記事】

Gemini 3.5: frontier intelligence with action(英語原文)（外部）
Google公式ブログの英語原典。日本語版と内容は同一だが、ニュアンス確認や引用に有用な一次情報源である。

Google Search’s I/O 2026 updates: AI agents and more（外部）
Google検索のI/O 2026関連発表記事。AIモードでGemini 3.5 Flashが標準モデルとなった経緯を公式説明。

The Gemini app becomes more agentic, delivering proactive 24/7 help（外部）
Geminiアプリの月間9億ユーザー到達と、Gemini Sparkを含むエージェント機能進化を公式に解説する記事。

Google isn’t releasing its next big AI model yet, drawing groans at its I/O（外部）
Gemini 3.5 Proの来月延期発表時、I/O会場の聴衆から落胆の声が漏れた様子を伝えた二次報道記事である。

Gemini 3.1 Pro モデルカード（外部）
前世代Gemini 3.1 Proの公式モデルカード。2026年2月19日リリース時点のベンチマーク値が確認できる。

【関連記事】

Google Antigravity 2.0発表 — I/O 2026で示されたGemini 3.5 Flash搭載の「エージェント主導開発」とは（内部）
同じGoogle I/O 2026での発表。本記事がモデル性能と産業導入を扱うのに対し、こちらは開発プラットフォームとSDKに焦点を当てた姉妹記事。

Google Antigravity 2.0発表 — I/O 2026で示されたGemini 3.5 Flash搭載の「エージェント主導開発」とは

Google I/O 2026で発表されたAntigravity 2.0、Gemini 3.5 Flash、Managed Agentsの全貌を解説。プロンプトから自律エージェントへと進化する開発スタ…

innovaTopia -（イノベトピア） – …

Google I/O 2026、5月19日開幕─Gemini新版・Android XRグラス・Googlebookの注目点（内部）
本記事が報じる発表会の前哨記事。Googleが事前に何を予告し、何が実際に発表されたかを照合できる。

Google I/O 2026、5月19日開幕─Gemini新版・Android XRグラス・Googlebookの注目点

Googleの開発者会議「Google I/O 2026」が5月19日（日本時間20日午前2時）開幕。Gemini次期版、Android XRグラスのプレビュー、新OS「Googlebook」が…

innovaTopia -（イノベトピア） – …

Google AI Modeはデフォルト検索になるのか─I/O 2026が問う「10本のリンク」の行方（内部）
Gemini 3.5 Flashが標準モデルとなったGoogle検索AIモードの社会的影響を、検索体験の側面から論じた記事。

Google AI Modeはデフォルト検索になるのか─I/O 2026が問う「10本のリンク」の行方

Googleが検索にAI回答を組み込む「AI Mode」は、標準の検索体験になるのか。リンクの一覧から直接回答への転換は、ユーザーの利便性を高める一方、メ…

innovaTopia -（イノベトピア） – …

Gemini 3.1 Pro登場 Googleが再びAIモデル競争の最前線へ（内部）
本記事で「3.5 Flashが上回った相手」として登場するGemini 3.1 Pro(2026年2月19日)の発表時記事。系譜を追える。

Gemini 3.1 Pro登場 Googleが再びAIモデル競争の最前線へ

Googleが2026年2月19日、AIモデル「Gemini 3.1 Pro」を発表した。ARC-AGI-2ベンチマークで77.1%を達成し、前世代の推論性能を2倍以上に引き上げた。AP…

innovaTopia -（イノベトピア） – …

Gemini 3 Flash発表、Proグレード推論を3倍速で実現─コスト効率でAI競争の新基準へ（内部）
Flashシリーズの前世代記事。「Flashの再定義」という流れを2世代分追える構成。

Gemini 3 Flash発表、Proグレード推論を3倍速で実現─コスト効率でAI競争の新基準へ

Googleが2025年12月17日、Gemini 3 Flashをリリース。Gemini 3 Proの推論能力を維持しながら3倍高速化し、コストは4分の1以下に。SWE-bench Verified…

innovaTopia -（イノベトピア） – …

OpenAI「GPT-5.5」発表|エージェンティック・コーディング強化、Claude Opus 4.7・Gemini 3.1 Proと競う性能（内部）
本記事の競合比較で言及されるGPT-5.5の発表記事。Geminiとの相対的ポジションを把握できる。

OpenAI「GPT-5.5」発表|エージェンティック・コーディング強化、Claude Opus 4.7・Gemini 3.1 Proと競う性…

OpenAIが2026年4月23日、最新AIモデル「GPT-5.5」とGPT-5.5 Proを発表。ChatGPTとCodexで順次展開が始まった。Terminal-Bench 2.0で82.7%を記録し、組…

innovaTopia -（イノベトピア） – …

Gemini Enterprise Agent Platform正式発表—Google Cloud Next ’26が告げる「エージェント時代」の本番開幕（内部）
本記事内にも登場するGemini Enterprise Agent Platformの発表記事。エンタープライズ文脈での深掘り素材。

Gemini Enterprise Agent Platform正式発表—Google Cloud Next ’26が告げる「エージェント時代」の本番開幕

2026年4月22日、Google Cloud Next '26でGemini Enterprise Agent Platformと第8世代TPU（8t・8i）が発表された。エージェントの構築から管理・防衛ま…

innovaTopia -（イノベトピア） – …

Google「Gemini Intelligence」発表で何が変わる?Android 17・新PC「Googlebook」が描くAI時代の全貌（内部）
I/O 2026の前哨戦であるThe Android Show 2026の総括記事。Gemini戦略の全体像を補完する。

Google「Gemini Intelligence」発表で何が変わる?Android 17・新PC「Googlebook」が描くAI時代の全貌

Googleは2026年5月12日、「The Android Show: I/O Edition 2026」でGemini Intelligenceを発表。Acer、ASUS、Dell、HP、LenovoとAndroidベースの新型…

innovaTopia -（イノベトピア） – …

【編集部後記】

「廉価版」だったはずのモデルが、わずか3か月前のフラッグシップを追い越しました。Googleが2026年5月19日のGoogle I/Oで発表したGemini 3.5 Flashは、コーディングとエージェント系の主要ベンチマークで前世代Gemini 3.1 Proを上回り、出力速度は他社モデルの4倍。

すでにShopify、Macquarie Bank、Salesforceなど世界の主要企業が業務に組み込み始めています。「速くて安いから劣る」というAIモデルの階層構造そのものが、いま静かに崩れようとしています。本記事では、ベンチマーク数値と企業導入事例から、その変化の射程を読み解きます。