OpenAIはGPT‑5.2シリーズを公開し、専門的な知識業務向けに性能を大きく引き上げた。GPT‑5.2 ThinkingはGDPvalで知識業務タスクの多くで業界専門家に匹敵する水準となり、投資銀行アナリスト初級レベルのスプレッドシートタスクでも高いスコアを示している。
ソフトウェアエンジニアリング評価であるSWE‑Bench ProやSWE‑bench Verified、科学・数学ベンチマークのGPQA DiamondやFrontierMath、抽象推論指標のARC‑AGI‑2などでも、従来モデルを上回る結果が報告されている。
ChatGPTではGPT‑5.2 Instant、Thinking、Proが有料プランから段階的に提供され、APIではgpt‑5.2、gpt‑5.2‑chat‑latest、gpt‑5.2‑proとして利用でき、入力・出力トークン単価も公表されている。
From:
Introducing GPT‑5.2
【編集部解説】
GPT‑5.2は、単なる「精度アップ版」というよりも、知識労働とエージェントワークフローを本格的に巻き込むフェーズに入ったモデルとして位置づけられます。GDPvalやARC‑AGI‑2、Tau2‑benchといった新しいベンチマークで、人間の専門家や従来モデルを大きく上回る結果が示されていることは、その転換点を象徴していると言えるでしょう。
特に重要なのは、長文コンテキスト処理、ツール呼び出し、Vision、コーディングといった要素が、それぞれの個別強化ではなく「統合されたエージェント能力」として語られている点です。Tau2‑bench TelecomやRetailでの高スコアは、一つのモデルが長時間・複数ターンの対話を通じてツールを安定して使いこなせることを示しており、企業が「多数の小さなボット」から「少数のメガエージェント」へアーキテクチャを組み替える現実的な根拠になりつつあります。
一方で、このレベルの自動化はホワイトカラーの業務設計そのものを変えていきます。スプレッドシートや財務モデル、カスタマーサポート、コード修正まで同じモデルに任せられるとすれば、「人間はどこで意思決定し、どこまでをAIに委ねるのか」という線引きが、経営や現場マネジメントの重要なテーマにならざるを得ません。
安全面では、メンタルヘルスやセンシティブな会話への対応強化、年齢推定モデルの導入などが並行して進んでいる点も見逃せません。高度なエージェントがユーザーと長期的に関わるほど、誤情報や有害な助言のリスクも増えるため、こうした安全策は規制当局や社会からの信頼を維持するための「前提条件」になりつつあります。
鍵になるのは、「GPT‑5.2が自分の仕事を奪うか」ではなく、「今の職能のどの部分をエージェントと共同作業に再設計できるか」という視点です。長文コンテキストとマルチツール利用の組み合わせは、調査・分析・資料作成といった時間のかかる中間工程から人間を解放しつつあり、そのぶん「目的設定や判断の質」にエネルギーを振り向けられるかどうかが、新しい競争軸になっていきます。
長期的には、ARC‑AGI系ベンチマークでの改善が示すように、抽象的な問題設定や理論的な推論の領域にまでAIが踏み込む可能性が見え始めています。アルゴリズム設計や科学研究など、従来「人間の領域」とされてきた知的活動についても、AIを前提としたコラボレーション設計が求められる時代に入ってきた、というのがGPT‑5.2の持つ本当のインパクトではないでしょうか。
【用語解説】
GDPval
米国GDPに大きく寄与する産業の44職種を対象に、営業資料や会計スプレッドシートなど実務的成果物の質を評価する知識労働ベンチマークである。
ARC‑AGI‑1 / ARC‑AGI‑2
抽象的推論能力を測るためのベンチマークであり、ARC‑AGI‑2はより難度と流動的推論を重視した新バージョンである。
Tau2‑bench
カスタマーサポート領域で、モデルがツールを用いて複数ターン対話を通じてタスクを完了できるかを評価するベンチマーク群である。
OpenAI MRCRv2
長文コンテキスト理解を測るマルチラウンド共参照解決タスクのデータセットであり、複数の「needle」を長い「haystack」に埋め込んで正確に復元できるかを評価する。
GPQA Diamond
Google検索で簡単に答えが見つからない院生レベルの物理・化学・生物問題で構成される科学質問ベンチマークである。
FrontierMath
専門家レベルの数学問題を対象としたベンチマークであり、Tier 1〜4に難易度が分かれている。
SWE‑Bench Pro / SWE‑bench Verified
実在のコードリポジトリに対してバグ修正や機能追加パッチを生成させるソフトウェアエンジニアリング評価であり、Proは複数言語と産業的関連性を重視している。
CharXiv Reasoning
科学論文の図表に関する質問に回答させることで、マルチモーダルな科学理解を測るベンチマークである。
ScreenSpot‑Pro
高解像度のGUIスクリーンショットを解析し、インターフェース理解能力を評価するビジョンタスクである。
reasoning effort
モデルの推論に割り当てる計算量の設定パラメータであり、値を上げるほど深い思考になるがレイテンシとコストも増える。
【参考リンク】
OpenAI(外部)
GPTシリーズやChatGPT、API、安全性研究などフロンティアモデル関連情報を掲載するOpenAIの公式サイトである。
GDPval Benchmark(外部)
44職種の知識労働タスクでモデル性能を評価するGDPvalの設計趣旨やサンプルタスクが説明されている公式ページである。
OpenAI API Pricing(外部)
gpt‑5.2やgpt‑5.2‑proを含む各モデルの入力・出力トークン単価やキャッシュ割引を確認できる料金一覧ページである。
GPQA Diamond(外部)
大学院レベルの科学質問ベンチマークGPQAの論文ページであり、データセット構成や評価方法がまとめられている。
FrontierMath Benchmark(外部)
専門家レベルの数学問題でモデル能力を測るFrontierMathの概要や、各モデルのスコアが紹介されているページである。
【参考動画】
【参考記事】
OpenAI Launches GPT‑5.2 as It Navigates ‘Code Red’(外部)
競合モデルとの比較や「code red」の背景を踏まえつつ、GPT‑5.2が企業ワークフローや安全性議論に与える影響を整理した分析記事である。
GPT‑5.2 Review: 70% GDPval Score Crushes Industry Experts(外部)
GDPvalやTau2‑bench、FrontierMathなどのスコアを整理し、メガエージェント化とコスト効率の観点からGPT‑5.2を評価する技術寄りレビューである。
GPT‑5.2 lands to top Google’s Gemini 3 in the AI benchmark game(外部)
GPT‑5.1から短期間でのリリースとなった経緯と、複数ベンチマークでGemini 3を上回る点に焦点を当てた、性能競争の文脈を解説する記事である。
GPT‑5.2 + Chat Data: Production‑Ready Workflow AI for SMBs(外部)
GPT‑5.2を活用した中小企業向けのワークフローAIやエージェント構成事例を紹介し、実運用での設計ポイントを解説するブログ記事である。
【編集部後記】
GPT‑5.2の話を追っていると、「どこまでをAIに任せて、どこからを自分の役割にするのか」という問いが、いよいよ避けて通れないテーマになってきたと感じます。いまの仕事の中で、調査や資料づくりなど「必要だけれど、本当はもっと時間を割きたいことがある」と感じる部分はどこでしょうか。
その一部をエージェントに預けられるとしたら、自分はどんな判断や設計、どんな対話や創造にもっと時間をかけてみたいか。そんな視点でGPT‑5.2を眺めてみると、「遠い未来の技術」ではなく、明日の自分の仕事環境を一緒につくる相棒として、少し違った風景が見えてくるかもしれません。































