OpenAI「GPT-5.5」発表|エージェンティック・コーディング強化、Claude Opus 4.7・Gemini 3.1 Proと競う性能でラムゼー数の新証明にも貢献

OpenAIは2026年4月23日、最新AIモデル「GPT-5.5」および「GPT-5.5 Pro」を発表した。同日よりChatGPTとCodexで、Plus、Pro、Business、Enterpriseユーザー向けに提供を開始する。

GPT-5.5 ProはChatGPTのPro、Business、Enterprise向けに展開する。APIの提供は2026年4月24日より開始されており、入力100万トークンあたり5ドル、出力100万トークンあたり30ドル、コンテキストウィンドウは100万トークン。Codexでは400Kのコンテキストウィンドウで利用可能で、Edu、Goプランでも使える。

Terminal-Bench 2.0で82.7%、GDPvalで84.9%、OSWorld-Verifiedで78.7%、Tau2-bench Telecomで98.0%、CyberGymで81.8%を記録した。モデルはNVIDIA GB200およびGB300 NVL72システム上で学習・提供される。

生物・化学およびサイバーセキュリティ能力はOpenAIのPreparedness Frameworkで「High」に分類された。

From: Introducing GPT-5.5

📋 編集部注（2026年4月27日更新）：APIの提供開始日（2026年4月24日）および競合比較に使用したベンチマーク表記（ARC-AGI-1→ARC-AGI-2）を修正しました。また、第三者ベンチマーク機関による独立評価で指摘されたハルシネーション率について追記しています。

【編集部解説】

GPT-5.4のリリースからわずか約2ヶ月での今回の発表は、AI開発のペースが「四半期単位」から「週単位」へと圧縮されている現状を象徴しています。これはもはや、ユーザーが各モデルの個性をじっくり吟味する時間を与えない進化速度だと言えるでしょう。

注目すべきは、GPT-5.5が位置付けられた「エージェンティック・コーディング」という表現です。エージェンティック(agentic)とは、人間が一手一手指示するのではなく、AIが目標を理解して自ら計画・実行・検証する振る舞いを指します。これまでAIは「尋ねれば答える対話相手」でしたが、本モデルはむしろ「大まかに投げれば完成まで持っていく実行者」に近づいています。

その証左となるのが、Codex上で展開されているユースケースです。OpenAI社内では従業員の85%以上が週次でCodexを利用し、広報チームは半年分の講演依頼データからスコアリング枠組みを構築、財務チームは約2万5千件のK-1税務書類レビューを前年比で2週間短縮したと公表されています。これは単なるベンチマークの数字ではなく、実業務で「人間の意思決定の前処理」が自動化されつつあることの具体例です。

科学研究分野での報告も見逃せません。組合せ論における「ラムゼー数」の非対角(off-diagonal)に関する漸近的事実について、GPT-5.5が新しい証明を発見し、形式検証システム「Lean」で検証されたという点です。ラムゼー数は「集団が一定のサイズを超えると特定のパターンが必然的に現れる最小値」を問うもので、正確な値が判明しているのはごく小さな事例のみ、という数学史上屈指の難問分野です。AIが数学の最前線に「独自の議論」で貢献したことは、科学研究におけるAIの役割が「要約・整理」から「発見・寄与」へと転換しつつあることを示唆します。

一方で、技術的に深い洞察を与えるのが「インフラの再帰的改善」です。GPT-5.5はNVIDIAのGB200およびGB300 NVL72システム向けに協調設計されていますが、Codex自体が本番環境のトラフィックパターンを分析し、最適な負荷分散アルゴリズムを書き出した結果、トークン生成速度が20%以上向上したとされています。「モデルが、自らを動かすインフラを改善した」というこの構造は、AIが自己改善ループに片足を踏み入れたことを意味し、業界の注目点となっています。

しかし、光が強ければ影も濃くなります。OpenAIはGPT-5.5のサイバーセキュリティおよび生物・化学能力を、自社のPreparedness Frameworkで「High(高)」に分類しました。Criticalレベルには達していないものの、GPT-5.4から一段進化したと認めています。これはAnthropicが4月初旬に「Claude Mythos Preview」を限定公開で発表し、その高いサイバー能力から限定ロールアウトとした動きと軌を一にしています。フロンティアモデルは、攻撃にも防御にも使える「両刃の剣」としての性格が鮮明になってきました。

これに対してOpenAIが打ち出した答えが「Trusted Access for Cyber」です。重要インフラの防御担当者など、信頼シグナルを満たした検証済みユーザーに対しては制限を緩めたモデル(GPT-5.4-Cyberなど)を提供する一方、悪用されやすいワークフローには厳しい分類器を適用するという二層構造です。この設計思想は、今後のAI規制論議、特に米国の重要インフラ保護やEU AI Actの高リスクAIシステム規定との整合性で、先例として参照されていくと考えられます。

競合環境に目を向けると、Anthropic Claude Opus 4.7はSWE-Bench ProやHumanity’s Last Examなど一部の評価で依然としてリードしており、Gemini 3.1 ProもARC-AGI-2で77.1%を記録しています（GPT-5.5は85.0%）。つまりフロンティアは一社の独占ではなく、用途ごとに最適モデルを選ぶ「ポリフォニック(多声的)な時代」に入ったと見るべきでしょう。ユーザー企業にとっては、ベンダーロックイン回避と評価能力の内製化が今後の競争力を左右します。

最後に、TechCrunchの報道でGreg Brockman氏が示唆した「super app」構想にも触れておきたいところです。ChatGPT、Codex、そしてAI搭載ブラウザを一つの製品に統合する未来像は、GoogleがGoogle検索・Gmail・Driveで築いた「情報の入り口」の地位を、AIが塗り替えようとしていることを意味します。私たちの「コンピュータとの関わり方」そのものが、この1〜2年で再設計局面に入る可能性があります。

【2026年4月27日追記】
GPT-5.5の発表と同時期に、第三者ベンチマーク機関Artificial Analysisが独立した事実確認評価（AA-Omniscience）の結果を公表しました。それによると、GPT-5.5の個別主張の精度は57%で全モデル中トップである一方、ハルシネーション率（事実誤りを自信を持って答える割合）は86%に達し、Claude Opus 4.7（36%）の約2.5倍、Gemini 3.1 Pro（50%）の約1.7倍という数値が記録されています。この「知っていることへの精度は高いが、知らないことも自信を持って答えてしまう」という特性は、OpenAIの公式発表では言及されていません。エージェンティック・コーディングや業務自動化のような、実行結果を検証しやすい用途ではGPT-5.5の強みが際立ちます。一方、法務レビュー・医療情報・財務デューデリジェンスなど、誤った自信ある回答が実害につながりうる用途では注意が必要です。この評価はOpenAIが採用している社内評価手法とは異なる独立指標であり、どちらが「正しい」ではなく、用途に応じてモデルを選ぶ判断材料として参照してください。

【用語解説】

エージェンティックAI(Agentic AI)
人間が一手ごとに指示を与えるのではなく、AIが目標を理解し、自ら計画・実行・検証を繰り返してタスクを完遂する振る舞いのことだ。対話型AIから「行動するAI」への質的転換を指す概念である。

Terminal-Bench 2.0
LLMがコマンドライン環境で、計画立案・反復・ツール連携を要する複雑なワークフローを完遂できるかを測定する評価ベンチマークだ。実運用に近いエンジニアリング能力を試す指標として注目されている。

GDPval
44の職業分野にわたり、明確に定義されたナレッジワークをAIエージェントがこなせるかを測定するOpenAIの評価だ。産業の実業務をAIがどこまで代替できるかを測る尺度として設計されている。

OSWorld-Verified
モデルが実環境のコンピュータ(OSやアプリケーション)を自律的に操作できるかを検証するベンチマークだ。GUI操作、ツール間移動、入力などの総合能力を問う。

Tau2-bench Telecom
通信業界のカスタマーサービス・ワークフローを模した複雑なマルチステップ対応能力を評価するベンチマークである。

CyberGym
AIのサイバーセキュリティ関連タスク遂行能力を測る評価だ。脆弱性の発見や対処など、攻撃・防御双方に関わる能力を測定する。

Preparedness Framework(プリペアドネス・フレームワーク)
OpenAIが2023年に導入し、2025年4月に改訂した、フロンティアAIの重大リスクを追跡・評価するための社内枠組みだ。生物・化学、サイバーセキュリティ、AI自己改善の3領域を対象とし、能力レベルを段階で分類する。「High(高)」はデプロイ時に追加のセーフガードや監視を要するレベルに相当する。

ラムゼー数(Ramsey Numbers)
組合せ論における基本概念で、「ある集団や構造が特定サイズを超えた瞬間、一定のパターンが必ず現れる」臨界点を示す数のことだ。正確な値が判明している事例はごく少数に限られ、数学史上屈指の難問領域として知られる。「非対角(off-diagonal)」は、ラムゼー数の対称性が崩れる一般形を指す。

Lean(リーン)
Microsoft Researchで開発された、関数型プログラミング言語兼対話型定理証明支援系だ。数学的証明や、ソフトウェア・ハードウェアの正しさを形式的に検証する用途で広く使われている。

NVIDIA GB200 / GB300 NVL72
NVIDIAのBlackwellおよびBlackwell Ultra世代GPUを搭載した大規模AI向けラックスケール・システムだ。72基のGPUを高速相互接続で統合し、フロンティアモデルの学習と推論の両方に用いられる。

Trusted Access for Cyber
信頼シグナルを満たした検証済みユーザー(重要インフラの防御担当者など)に対し、サイバー関連制限を緩和したモデルへのアクセスを提供するOpenAIのプログラムだ。防御用途の正当性を担保しつつ、過剰な拒否応答を減らす狙いがある。

K-1税務書類
米国の税務書類の一種で、パートナーシップ事業体が各パートナーに配布する収益・控除の明細書(Schedule K-1)を指す。大量に発生し、文字通り処理量の多い典型的事務作業である。

Claude Mythos Preview
Anthropicが2026年4月上旬に一部企業向けに先行公開した、サイバーセキュリティに特化したAIモデルだ。高い攻撃発見・防御能力ゆえに限定的な展開となった経緯があり、AI業界のサイバー能力論議の焦点となっている。

【参考リンク】

OpenAI 公式サイト(外部)
GPT-5.5をはじめとするフロンティアAIモデルを開発する米国のAI研究企業。ChatGPT、Codex、API製品を提供する。

ChatGPT 公式サイト(外部)
OpenAIの対話型AIサービス。Free/Plus/Pro/Business/Enterprise/Eduの各プランでGPT-5.5を含むモデルを利用できる。

OpenAI Codex(外部)
OpenAIの開発者・エンジニア向けエージェンティック・コーディング環境。IDE連携、クラウド実行、端末操作が統合されている。

OpenAI Safety & Responsibility(外部)
OpenAIの安全性に関する情報を集約するポータル。Preparedness Frameworkやシステムカードが公開されている。

Anthropic 公式サイト(外部)
Claude Opus 4.7、Claude Mythos Previewなどを開発する米国のAI安全性研究企業。OpenAIの主要な競合とされる。

NVIDIA 公式サイト(外部)
GB200/GB300 NVL72など、AI学習・推論向けGPUシステムを提供する半導体企業。GPT-5.5の共同設計・提供インフラを担った。

Lean 公式サイト(外部)
Microsoft Researchで開発された、定理証明支援系かつ関数型プログラミング言語。ラムゼー数証明の検証に使用された。

Artificial Analysis(外部)
AIモデルを価格・速度・知能指標で独立評価する第三者ベンチマーク機関。Intelligence IndexやCoding Indexを公表している。

Cursor(外部)
GPT-5.5を搭載しているAIコードエディタ。共同創業者兼CEOのマイケル・トゥルーエル氏が導入事例の公式コメントを寄せている。

【参考記事】

TechCrunch「OpenAI releases GPT-5.5, bringing company one step closer to an AI ‘super app’」(外部)
グレッグ・ブロックマン氏の発言を中心に、GPT-5.5がOpenAIの「スーパーアプリ」構想への一歩だと位置付けた記事。

CNBC「OpenAI announces GPT-5.5, its latest artificial intelligence model」(外部)
GPT-5.4から2ヶ月未満でのリリースペースと、Anthropic Mythos発表から3週間後の投入という文脈を整理した記事。

SiliconANGLE「OpenAI releases GPT-5.5 with advanced math, coding capabilities」(外部)
Terminal-Bench 2.0の数値、ラムゼー数の証明貢献、NVIDIA GB200/GB300 NVL72でのインフラ構築を詳述した記事。

Business Today「BT Explainer: OpenAI’s GPT 5.5 brings autonomy into focus, takes on Anthropic’s Mythos」(外部)
GPT-5.5とClaude Opus 4.7、Claude Mythos Previewとのベンチマーク比較を整理した解説記事。

Fast Company「OpenAI releases GPT-5.5, a more powerful engine for coding, science, and general work」(外部)
OpenAIがエージェンティック・コーディング分野で最強を位置付け、Anthropicとの競争圧力を報じた記事。

trendingtopics.eu「With GPT-5.5, OpenAI is Making a Comeback to The Top of The AI Charts」(外部)
トークン生成速度20%以上向上、競合の半額でSOTAを実現するという効率性に着目した分析記事。

R&D World「How OpenAI’s recently released GPT-5.5 stacks up with Anthropic’s gated Claude Mythos」(外部)
SWE-bench Pro、HLE、CyberGym、OSWorld-Verified、GPQA Diamondなどのベンチマーク詳細数値を比較した記事。

Trading Economics「Japanese Yen – Quote – Chart – Historical Data – News」(外部)
2026年4月24日時点のUSD/JPY為替レートを確認するために参照した金融情報サイト。

Artificial Analysis（外部）
AIモデルを価格・速度・知能指標・ハルシネーション率などで独立評価する第三者ベンチマーク機関。GPT-5.5のAA-Omniscience評価結果を公表している。

【関連記事】

GPT‑5.4正式リリース——AIがPCを操作する時代、本格始動
GPT-5.5の直前世代。2026年3月5日リリースのGPT-5.4の仕様・ベンチマーク・価格を詳述した記事である。比較の基軸となる。

GPT‑5.4正式リリース——AIがPCを操作する時代、本格始動

OpenAIが2026年3月5日にGPT‑5.4をリリース。AIがPCを自律操作するコンピューターユースをメインラインモデルに初搭載。OSWorld-Verifiedで人間のパフ…

innovaTopia -（イノベトピア） – …

OpenAI、GPT-5.3-Codex発表──自己開発に貢献した初のAIモデル、サイバー防御に1,000万ドル投資
GPT-5.5の「インフラの再帰的改善」文脈に連なる前身事例。Codexが自身の開発を支援した最初の事例として位置付けられている。

OpenAI、GPT-5.3-Codex発表──自己開発に貢献した初のAIモデル、サイバー防御に1,000万ドル投資

OpenAIが2026年2月5日、GPT-5.3-Codexを発表。自身の開発に貢献した初のAIモデルで、SWE-Bench Proなどで業界最高性能を達成。サイバーセキュリティで…

innovaTopia -（イノベトピア） – …

Claude Opus 4.7登場｜「Mythosの体験版？」サイバーセキュリティ対応モデルの性能とは
本記事でベンチマーク比較対象として登場するAnthropicの最新モデル。2026年4月16日発表で、GPT-5.5との競合関係を理解する鍵になる。

Claude Opus 4.7登場｜「Mythosの体験版？」サイバーセキュリティ対応モデルの性能とは

AIモデルの能力競争が加速するなか、Anthropicは異例の透明性をもって新モデルを世に出した。「一般公開さ

innovaTopia -（イノベトピア） – …

Anthropic「Claude Mythos Preview」限定公開｜数十年物の脆弱性を自律発見、史上最強AIをなぜ一般に公開しないのか
本記事でOpenAIの「High」分類と対比させた、Anthropicのサイバー特化フロンティアモデル。2026年4月上旬の限定公開の経緯を報じている。

Anthropic「Claude Mythos Preview」限定公開｜数十年物の脆弱性を自律発見、史上最強AIをなぜ一般に公開し…

Anthropicが新フロンティアモデル「Claude Mythos Preview」のプレビューを限定公開。Project Glasswingとして40以上の組織と連携し、世界のソフトウ…

innovaTopia -（イノベトピア） – …

GPT‑5.4‑Cyber登場—OpenAIがサイバー防衛AIを認証制で防衛者に段階開放へ
本記事で紹介した「Trusted Access for Cyber」プログラムで提供される、サイバー許容型モデルの先行事例を詳述している。

GPT‑5.4‑Cyber登場—OpenAIがサイバー防衛AIを認証制で防衛者に段階開放へ

OpenAIがサイバー防衛特化モデルGPT‑5.4‑Cyberをリリース。Trusted Access for Cyberプログラムを数千人規模に拡大し、バイナリリバースエンジニアリ…

innovaTopia -（イノベトピア） – …

北京大学AIが証明した「数学研究の自動化」—Lean 4で自ら検証、人間の判断ゼロ
本記事のラムゼー数証明文脈と共鳴する記事。AIが数学の未解決問題をLean 4で形式検証した事例として、AIと数学研究の接続を理解するのに最適である。

北京大学AIが証明した「数学研究の自動化」—Lean 4で自ら検証、人間の判断ゼロ

北京大学のドン・ビン率いるチームが開発したAIフレームワーク「Rethlas＋Archon」が、2014年に数学者ダン・アンダーソンが提起した可換代数の未解決…

innovaTopia -（イノベトピア） – …

GPT-5.4、OpenAIのCodexリポジトリから2度リーク ― 判明している事実まとめ
OpenAIのモデル投入ペースの速さを示す背景記事。GPT-5.3→5.4→5.5という加速リリースの文脈を補完する。

GPT-5.4、OpenAIのCodexリポジトリから2度リーク ― 判明している事実まとめ

OpenAIの公開GitHubリポジトリ「Codex」で、GPT-5.4への言及が数日の間に2度確認された。フルレゾリューション・ビジョンやファストモードの実装コー…

innovaTopia -（イノベトピア） – …

Stanford AI Index 2026｜AIは加速し、格差は広がる—10の数字が示す世界の現在地
AIモデルの急速な進化を俯瞰するための業界指標記事。本記事のフロンティア競争を世界的な文脈で捉え直すための補助線となる。

Stanford AI Index 2026｜AIは加速し、格差は広がる—10の数字が示す世界の現在地

スタンフォード大学 Stanford HAI が「AI インデックス 2026」を公表した。米中AIモデルの性能差はわずか2.7%に縮小し、生成AIの世界普及率はPCやイン…

innovaTopia -（イノベトピア） – …

【編集部後記】

GPT-5.5は、AIが「指示を待つ道具」から「目標を任される相棒」へと変わりゆく節目を示しているように感じます。もしあなたがコーディングや日々の資料作成に携わっているなら、このモデルが示す「人間の指示がざっくりでも走り切る」という振る舞いは、働き方そのものを見直すきっかけになるかもしれません。

一方で、サイバー能力の高まりがもたらす影も確実に濃くなっています。便利さをどう享受し、リスクとどう向き合うか。一緒に未来の輪郭を描いていきませんか。

OpenAI「GPT-5.5」発表|エージェンティック・コーディング強化、Claude Opus 4.7・Gemini 3.1 Proと競う性能でラムゼー数の新証明にも貢献

【編集部解説】

【用語解説】

【参考リンク】

【参考記事】

【関連記事】

【編集部後記】

説明可能なAI（XAI）の罠─AIはなぜ「もっともらしい嘘」をつくのか？

理化学研究所、脳は「自然の風景」から無意識に学ぶことを発見｜AI設計や教育にも応用へ