OpenAIは2026年3月5日、GPT‑5.4をChatGPT・API・Codexにてリリースした。ChatGPTではGPT‑5.4 Thinkingとして提供され、ChatGPT Plus・Team・Proユーザーが対象となる。GPT‑5.4 ProはProおよびEnterpriseプランで利用可能だ。
APIの最大コンテキストウィンドウは100万トークンで、入力価格は2.50ドル/Mトークン、出力価格は15ドル/Mトークンとなる。GDPvalでは83.0%、OSWorld-Verifiedでは75.0%を達成し、人間のパフォーマンスである72.4%を上回った。
個別の主張の虚偽率はGPT‑5.2比33%低下、回答全体のエラー率は18%低下した。GPT‑5.2 Thinkingは2026年6月5日に廃止される。
From:
Introducing GPT‑5.4 | OpenAI
【編集部解説】
GPT‑5.4のリリースは、OpenAIにとって単なるモデルアップデートではありません。推論・コーディング・コンピューターユースという、これまで別々のモデルに分散していた強みを、一つのフロンティアモデルに統合した節目のリリースです。GPT‑5.3‑Codexがコーディング特化モデルとして開発者に提供されていたのに対し、GPT‑5.4はその能力をベースラインとして取り込み、かつプロフェッショナルワークやエージェント型タスクにまで射程を広げています。
今回最も注目すべき機能は、ネイティブのコンピューターユースです。モデルがスクリーンショットを認識し、マウス・キーボード操作を通じてアプリケーションを横断しながら自律的に作業を完遂する能力は、「AIがPCを使う」という段階の本格的な幕開けを意味します。これにより、これまで人間が介在していた「操作する」という工程そのものをエージェントが担えるようになります。財務モデルの作成・ブラウザ上でのフォーム入力・複数ツールをまたいだ長期タスクの実行など、ホワイトカラーの定型業務の自動化が一気に現実味を帯びます。
ただし、ベンチマーク数値の読み方には注意が必要です。OSWorld-Verifiedで示された「人間のパフォーマンス72.4%を超えた」という表現は、OSWorld論文に記載された人間ベースラインを上回ったものですが、これはPC操作の専門家を指すものではありません。また、GDPvalはOpenAI自身が設計・実施した社内ベンチマークであり、ハルシネーション低減の数値も自社報告であって、GPT‑5.2との比較であってGPT‑5.3との比較ではない点は読み解く上で留意すべきです。
競合との比較という視点では、現時点でどのモデルが「最強」かは用途によって異なります。GPT‑5.4はナレッジワーク(GDPval 83%)とコンピューターユース(OSWorld 75%)でリードする一方、Gemini 3.1 Proは抽象的推論(GPQA Diamond 94.3%)をより低い価格で提供し、Claude Opus 4.6はSWE-Bench Verifiedのコーディング精度(80.8%)と視覚推論(MMMU-Pro 85.1%)で首位に立っています。
ツールサーチという新機能も見逃せません。これまでAPIコールのたびに全ツール定義をプロンプトに含める構造は、ツール数が増えるにつれてコストと遅延の問題になっていました。GPT‑5.4では必要なタイミングでのみツール定義を参照する仕組みに変わり、トークン消費を約47%削減しながら精度を維持することが確認されています。エージェント開発の現場では、この構造変化はコスト効率に直結する実利的な改善です。
安全性の面では、思考の連鎖(CoT)のモニタリング可能性を検証する新たなオープンソース評価が導入された点が興味深いです。GPT‑5.4 Thinkingはそのチェーン・オブ・ソートを意図的に難読化する能力が低いという結果が示されており、これはAI監視の実効性を担保する上でポジティブな特性です。一方、「High cyber capability」に分類されたことで、悪意ある利用へのリスク管理も一層重要になっています。
今回のリリースは、OpenAIが米国防総省(DoD)との契約をめぐる大規模なユーザー離反という逆風のさなかに行われた点も背景として押さえておく必要があります。2026年2月28日にChatGPTの米国内アンインストール数が前日比295%急増し、同日1つ星レビューが775%増加するという事態が起きています。GPT‑5.4がどれほど技術的に優れていても、ユーザーの信頼という非技術的な要素がAIサービスの競争力に直結する時代に入ったことを、このタイミングは象徴しています。
長期的な視点では、GPT‑5.4が示す方向性は「AIが道具を使う」から「AIが仕事をする」への移行です。コンピューターユース・長大なコンテキスト・ツールサーチの組み合わせが成熟すれば、特定の職種における人間の役割は根本的に問い直されるフェーズが近づきます。規制の観点でも、自律的に複数のシステムを操作するエージェントの普及は、データアクセスや操作の責任範囲に関する新たなガイドライン整備を促すことになるでしょう。
【用語解説】
フロンティアモデル
現時点で最高水準の性能を持つAIモデルを指す。研究・産業の最前線(フロンティア)に位置するという意味合いを持ち、OpenAIやAnthropicなど主要AI企業が競い合って開発している。
AIエージェント(エージェント)
特定の目標に向かって、人間の介入なしに自律的にタスクを計画・実行・検証するAIシステムのこと。ツールの呼び出しやウェブ検索・コード実行などを組み合わせて複数ステップの作業を遂行する。
コンピューターユース(Computer Use)
AIがスクリーンショットを認識し、マウス・キーボード操作を通じてコンピューターを自律的に操作する機能。ブラウザ操作・ファイル管理・アプリケーション横断の作業などをエージェントが実行できる。
ツールサーチ(Tool Search)
GPT‑5.4で導入された新機能。従来はAPIコール時にすべてのツール定義をプロンプトに含めていたが、ツールサーチでは必要なときのみ該当ツールの定義を参照する仕組みで、トークン消費を大幅に削減する。
トークン
AIモデルが言語を処理する際の最小単位。単語や文字の断片に相当し、APIの利用料金はこのトークン数に基づいて計算される。文章が長ければ長いほど消費するトークン数が増える。
ハルシネーション(幻覚)
AIが事実でない情報をあたかも正確であるかのように生成してしまう現象。医療・法律・金融など精度が求められる分野では特に問題となる。
Chain-of-Thought(CoT)/思考の連鎖
AIが回答を出す前に、思考のプロセスを段階的に示すアプローチ。モデルの推論過程を可視化することで、誤りの検出や安全性の監視に活用される。
OSWorld-Verified
デスクトップ環境をスクリーンショットとマウス・キーボード操作のみで自律的にナビゲートするAIの能力を測定するベンチマーク。人間のパフォーマンスが72.4%と設定されており、AIのPC操作能力を測る指標として広く参照される。
GDPval
米国GDPに貢献する上位9産業・44職種を対象に、AIが実務レベルの成果物を生成できるかを評価するOpenAI社内ベンチマーク。営業資料・経理スプレッドシート・スケジュール作成など実際の業務タスクを対象とする。
MMMU-Pro
大学レベルの専門知識と視覚的推論を同時に要求するマルチモーダルAI評価ベンチマーク。テキストのみで回答可能な問題を排除し、画像と文章を同時に処理する能力を厳密に測定する。AIの視覚理解能力の指標として広く参照される。
【参考リンク】
OpenAI(外部)
GPT‑5.4・ChatGPTを開発するAI企業。Microsoftと提携し、大規模言語モデルの研究・商用展開を行っている。
ChatGPT(外部)
OpenAIが提供するAIチャットサービス。GPT‑5.4 ThinkingはPlus・Team・Proプランから利用できる。
OpenAI API ドキュメント(外部)
GPT‑5.4のAPI仕様・料金・パラメーター設定などを掲載するOpenAI公式の開発者向けポータル。
Anthropic(外部)
OpenAI出身者が設立したAI安全性重視の企業。Claude AIを開発し、DoD契約問題でOpenAIと対比される。
Cursor(外部)
AIを活用したコードエディタを提供。GPT‑5.4を社内ベンチマークのトップと評価し推奨している。
Zapier(外部)
数千のアプリを連携させる自動化プラットフォーム。GPT‑5.4のツールユースベンチマークに協力している。
Harvey(外部)
法律業務特化のAIプラットフォーム。GPT‑5.4はBigLaw Bench評価で91%を記録したと発表している。
Mercor(外部)
APEX-Agentsベンチマークを運営するAI人材マッチングサービス。GPT‑5.4がトップと評価している。
【参考記事】
OpenAI’s GPT-5.4 sets new records on professional benchmarks | The Next Web(外部)
OSWorld 75%・ハルシネーション33%低減などの数値を検証。OpenAI自己報告データの限界も公平に指摘。
ChatGPT uninstalls surged by 295% after DoD deal | TechCrunch(外部)
Sensor TowerデータによりChatGPTアンインストールが前日比295%増、1つ星レビューが775%増と報告。
GPT-5.4 vs Opus 4.6 vs Gemini 3.1 Pro: Best AI Model? | Digital Applied(外部)
GPT‑5.4・Claude Opus 4.6・Gemini 3.1 Proの主要ベンチマーク数値を横断比較した解説記事。
OpenAI launches GPT-5.4 with Pro and Thinking versions | TechCrunch(外部)
GDPval 83%・ハルシネーション33%低減・Tool Search導入など主要数値と機能を正確に報道。
Vibe Check: GPT-5.4 — OpenAI Is Back | Every.to(外部)
開発者視点の実使用レポート。1Mトークンコンテキストの意義やClaude Codeとの比較を含む。
【編集部後記】
GPT‑5.4が示す「AIがPCを操作する」という光景は、もはや近未来の話ではありません。あなたの日常業務の中で、AIに任せてみたいと思う作業はどんなことでしょうか?そして、OpenAIのDoD契約を巡る騒動が示すように、AIサービスを「何を信じて使うか」という問いも私たちに突きつけられています。
技術の進化と、それを提供する企業の姿勢——その両方を一緒に見つめていけたら、と思っています。







































