AIが自らの開発を加速する――これはもはやSFの話ではない。OpenAIが2026年2月5日に発表したGPT-5.3-Codexは、自身のトレーニングとデプロイに貢献した史上初のAIモデルであり、AI開発における自己改善ループが現実のものとなった瞬間を象徴している。
OpenAIは2026年2月5日、エージェント型コーディングモデル「GPT-5.3-Codex」を発表した。本モデルはGPT-5.2-Codexのコーディング性能とGPT-5.2の推論能力を統合し、処理速度が25%向上している。
SWE-Bench Proで56.8%、Terminal-Bench 2.0で77.3%、OSWorld-Verifiedで64.7%のスコアを記録し、業界最高水準を達成した。GPT-5.3-Codexは自身の開発プロセスにも貢献した初のモデルであり、OpenAIチームはトレーニングのデバッグやデプロイメント管理に初期バージョンを活用した。
同モデルはサイバーセキュリティタスクで「High capability」に分類される初のモデルとなり、OpenAIは防御的利用を促進するため1,000万ドルのAPIクレジットを提供する。
本モデルはNVIDIA GB200 NVL72システムで開発され、有料ChatGPTプランで利用可能となる。
From:
Introducing GPT-5.3-Codex
【編集部解説】
今回のGPT-5.3-Codexの発表で最も注目すべきは、「AIが自身の開発に貢献した初のモデル」という点です。OpenAIのエンジニアリングチームは初期バージョンを使って後続バージョンのトレーニングをデバッグし、デプロイメントを管理しました。これは単なる技術的マイルストーンではなく、AI開発における自己改善ループの実現を意味します。
従来のコーディング支援AIは、コード生成やレビューに特化していましたが、GPT-5.3-Codexはその範囲を大きく超えています。デバッグ、デプロイ、モニタリング、PRD作成、ユーザーリサーチ、データ分析まで、ソフトウェア開発ライフサイクル全体をカバーする汎用エージェントへと進化しました。
ベンチマーク結果も印象的です。SWE-Bench Proは4つのプログラミング言語をカバーする実世界のソフトウェアエンジニアリング評価で、GPT-5.3-Codexは56.8%という業界最高スコアを達成しています。さらに注目すべきは、前モデルよりも少ないトークン数でこの性能を実現している点です。これはユーザーがより多くのタスクを実行できることを意味します。
OSWorld-Verifiedでの64.7%というスコアも特筆に値します。このベンチマークは視覚情報を使ってUbuntu、Windows、macOS上でコンピュータタスクを完了する能力を測定するもので、人間のスコアが約72%であることを考えると、AIが人間に近い水準でコンピュータを操作できるレベルに達しつつあることを示しています。
一方で、サイバーセキュリティの側面では慎重な対応が求められています。GPT-5.3-CodexはOpenAIの準備フレームワークで「High capability」に分類される初のモデルとなりました。この分類は、モデルが既存のサイバー攻撃の障壁を取り除く能力を持つことを意味します。具体的には、保護されたターゲットへの攻撃を自動化したり、ソフトウェアの脆弱性を自動検出したりする能力です。
OpenAIはこのリスクに対し、予防的アプローチを採用しています。安全性トレーニング、自動監視、信頼できるアクセス制御、脅威インテリジェンスを含む包括的なセーフティスタックを展開し、防御者が脆弱性を発見・修正する能力を加速しながら、悪用を遅らせる戦略をとっています。
実際、OpenAIはセキュリティ研究エージェント「Aardvark」のプライベートベータを拡大し、Next.jsなどの広く使用されているオープンソースプロジェクトに無料のコードベーススキャンを提供しています。あるセキュリティ研究者はCodexを使用してReact Server Componentsの脆弱性を発見し、先週開示されました。
1,000万ドルのAPIクレジット助成プログラムも、オープンソースソフトウェアと重要インフラシステムのセキュリティ強化を目的としています。これは2023年に開始した100万ドルプログラムの10倍規模となり、OpenAIがサイバーセキュリティ分野に本格的にコミットしていることを示しています。
技術面では、NVIDIA GB200 NVL72システムでの共同設計・トレーニング・提供が行われている点も重要です。このハードウェア選択は、推論経済性と25%の高速化を実現する基盤となっています。
今後の展望として、OpenAIはCodexを「コードを書くツール」から「コンピュータを操作して作業を完了するツール」へと位置づけを変えています。これはソフトウェア開発者だけでなく、データサイエンティスト、プロダクトマネージャー、デザイナーなど、幅広い専門職の働き方を変革する可能性を秘めています。
【用語解説】
エージェント型コーディングモデル
プログラミングコードの生成だけでなく、デバッグ、テスト、デプロイ、モニタリングなど、ソフトウェア開発ライフサイクル全体を自律的に実行できるAIモデルである。従来のコード補完ツールとは異なり、長時間にわたる複雑なタスクを人間の介入を最小限に抑えながら完遂する能力を持つ。
SWE-Bench Pro
実世界のソフトウェアエンジニアリングタスクを評価するベンチマークである。Python、JavaScript、TypeScript、Javaの4言語をカバーし、複数ファイルにまたがる100行以上のコード変更を伴う企業グレードの課題を含む。従来のSWE-bench Verifiedよりも汚染耐性が高く、プロフェッショナルな開発現場の実態をより正確に反映している。
Terminal-Bench 2.0
コーディングエージェントに必要なターミナル操作スキルを測定するベンチマークである。コマンドライン環境でのファイル操作、システム管理、開発ツールの使用など、実際の開発作業で必須となる技能を評価する。
OSWorld-Verified
Ubuntu、Windows、macOSなどの実際のオペレーティングシステム上で、視覚情報を使用してコンピュータタスクを完了する能力を測定するベンチマークである。369のタスクが含まれ、Webアプリ、デスクトップアプリ、ファイルI/O、複数アプリケーションにまたがるワークフローなど、実世界のコンピュータ使用事例に基づいている。人間の成功率は約72%とされる。
GDPval
OpenAIが2025年にリリースした、AIモデルの実務能力を測定するベンチマークである。米国GDPに貢献する上位9業界から44職種を選定し、1,320の専門的タスクを抽出している。文書作成、プレゼンテーション、スプレッドシート、図面など、実際の職場で作成される成果物をAIに生成させ、平均14年以上の経験を持つ専門家が評価する。従来の学術的ベンチマークとは異なり、経済的価値創出の観点からAI能力を測定する。
High capability(高能力分類)
OpenAIの準備フレームワークにおいて、既存のサイバー攻撃の障壁を取り除く能力を持つモデルに付与される分類である。具体的には、保護されたターゲットへの攻撃自動化やソフトウェア脆弱性の自動検出が可能なレベルを指す。この分類を受けたモデルには、安全性トレーニング、自動監視、信頼できるアクセス制御、脅威インテリジェンスを含む包括的なセーフティスタックが適用される。
Aardvark
OpenAIが開発したセキュリティ研究エージェントである。Codex Security製品群の最初の提供製品として、オープンソースプロジェクトのコードベーススキャンを行い、脆弱性を検出する。現在はプライベートベータ段階にあり、Next.jsなどの広く使用されているプロジェクトに無料で提供されている。
NVIDIA GB200 NVL72
36基のGrace CPUと72基のBlackwell GPUを組み合わせたNVIDIAの大規模AIトレーニング・推論システムである。2,592個のArm Neoverse V2コア、最大17TBのLPDDR5Xメモリ、最大13.4TBのHBM3e GPU メモリを搭載し、NVLinkバンド幅は130TB/sに達する。FP8/FP6 Tensor Coreで720PFLOPSの性能を発揮する。
【参考リンク】
OpenAI公式サイト(外部)
ChatGPT、DALL-E、Codexなど先進的なAIモデルを開発する米国の人工知能研究機関の公式サイト。
Codex公式ページ(外部)
OpenAIのAIコーディングパートナー公式サイト。アプリ、CLI、IDE拡張機能、Web版で利用可能。
NVIDIA GB200 NVL72製品情報(外部)
36基のGrace CPUと72基のBlackwell GPUを統合したNVIDIAの最新AI推論・トレーニングプラットフォーム。
Trusted Access for Cyber(外部)
2026年2月開始のサイバーセキュリティ研究者向けアクセスプログラム。身元確認済みの防御研究者に提供。
OpenAI Cybersecurity Grant Program(外部)
オープンソースと重要インフラのセキュリティ強化に1,000万ドルのAPIクレジットを提供する助成プログラム。
Next.js公式サイト(外部)
Vercel開発のReactベースWebアプリケーションフレームワーク。Codexで脆弱性が発見され2026年2月開示。
【参考動画】
AI統合コンサルタントBijan BowenによるGPT-5.3-Codexの包括的なハンズオンテスト動画。ブラウザベースOSワークフロー、3Dプリンターシミュレーション、フライトコンバットシミュレーター、C++ゲーム開発、Python FPSエージェントタスク、マルチモーダルWebサイト生成など、多様な実世界テストを約32分間で詳細に解説。
AnthropicがClaude Opus 4.6でTerminal-Bench 2.0のトップスコアを主張した数分後に、OpenAIがGPT-5.3-Codexで反撃した経緯を解説。両モデルの性能比較とAI開発競争の現状を分析している。
【参考記事】
SWE-Bench Pro Sets A Higher Bar For AI Coding Agents(外部)
SWE-Bench Proの設計思想を詳述。企業グレードの課題で従来の70%から25%未満へ難易度が上昇した経緯を分析。
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments(外部)
OSWorldベンチマークの学術論文。369タスク構成で最先端モデル成功率12.24%、人間72.36%のギャップを明示。
OpenAI develops GDPval, a benchmark that measures AI’s ability to perform real-world tasks(外部)
GDPvalの詳細解説。44職種1,320タスクで専門家の100倍の速度と100分の1のコストを実証した分析。
Trusted Access for Cyber: OpenAI Expands AI Security Initiative(外部)
Trusted Access for Cyberプログラムの詳細。身元確認済み研究者への選択的提供と1,000万ドル拡大を報告。
OpenAI’s upcoming Codex update will hit the company’s “High Cybersecurity Risk Level” for the first time(外部)
2026年1月報道。GPT-5.3-Codexが初の「High capability」分類を受ける背景と予防的アプローチを説明。
【編集部後記】
AIが自身の開発に貢献する時代が、思っていたよりも早く訪れました。GPT-5.3-Codexの発表は、単なる性能向上ではなく、AI開発における自己改善ループの実現という大きな転換点です。
みなさんは、このようなAIツールをすでに業務で活用されているでしょうか。コード生成だけでなく、データ分析やプレゼンテーション作成など、実務の幅広い場面でAIエージェントが協力者となる未来が近づいています。
一方で、サイバーセキュリティの「High capability」分類が示すように、強力な技術には慎重な管理も必要です。防御と悪用のバランスをどう取るべきか、私たち自身も考え続けていきたいテーマです。みなさんはどのようにお考えでしょうか。






がもたらす「アンテザード・ソサエティ」の衝撃-300x200.png)






























