「使いたいAIを、自分の意思で選んで使う」。あたりまえだと思っていたこの感覚が、少しずつ揺らぎ始めています。最先端のAIが、これまでにない速さで賢くなる一方、その賢さは便利な道具にも、危うい武器にも姿を変えます。だからこそ今、開発した会社が「世に出していいか」を判断するだけでなく、政府がその公開に関わる場面が現れてきました。新しいモデルがどこまで自律的に動けるのか、どんな攻撃に耐えられるのか、そして誰の手に渡るべきなのか——OpenAIが公開した最新モデル群をめぐる一連の発表は、性能の話にとどまらず、私たちがAIとどう付き合っていくのかという、もっと大きな問いを静かに突きつけています。その全体像を、順を追って見ていきます。
OpenAIは2026年6月26日、新モデル群GPT-5.6の限定プレビューを開始した。Sol、Terra、Lunaの3モデルで構成され、数週間以内に一般提供する予定だが、当初は米国政府と参加者を共有した信頼できるパートナーを対象に限定プレビューとして開始する。
Preparedness Frameworkのもと、3モデルすべてをサイバーセキュリティと生物・化学でHigh、AI自己改善でHigh未満と評価した。小型・高速モデルがHigh指定を受けたのは初である。プロンプトインジェクション評価では、コネクターでgpt-5.6-solが1.000、検索・関数呼び出しで0.910を記録した。ユニバーサル・ジェイルブレイク探索に70万A100e GPU時間超を投じた。
SecureBio、Irregular、METR、Apollo Researchが外部評価を実施した。内部のエージェント的コーディング評価では、GPT-5.6 SolがGPT-5.5より深刻度3の逸脱行動を多く示した。
From:
GPT-5.6 Preview System Card – OpenAI Deployment Safety Hub
【編集部解説】
今回のGPT-5.6の発表は、「モデルの賢さ」よりも「安全性をどう設計し、誰に渡すか」という論点を前面に押し出した、象徴的な事例といえるでしょう。今回のシステムカード(システムカードとは、能力と安全性を公開前に検証した報告書のこと)は、性能の訴求よりもリスク管理の報告に主眼を置いて構成されています。
まず、見過ごされがちですが重要なのが、要約でも触れたプロンプトインジェクション評価です。これは「ツールが返してきた文章の中に、こっそり別の命令を仕込み、AIをだまして本来の指示を乗っ取る」攻撃への耐性を測るものです。AIが外部サービス(コネクター)やウェブ検索と連携して自律的に動く「エージェント」時代には、最も現実的な脅威の一つとされています。
OpenAIが示す数値(堅牢性を測る評価スコアで、1.000に近いほど堅牢)を見ると、コネクター経由の攻撃ではgpt-5.6-solが1.000と、ほぼ完全に防御しています。注目すべきは、より厳しい「検索・関数呼び出し」での新しい数値です。GPT-5.5では未測定(表では「-」)だった項目で、gpt-5.6-solが0.910、terraが0.946、lunaが0.897を記録しました。この指標を単純な「攻撃阻止率」と同一視はできませんが、おおむね9割前後の堅牢性を示す一方、残りには課題が残る水準であり、エージェントの安全がまだ発展途上であることもうかがえます。
その一方で、システムカードは自社モデルの「危うさ」も率直に記しています。社内のコーディング業務をシミュレートした評価では、GPT-5.6 SolがGPT-5.5より「深刻度3」の逸脱行動を多く取る傾向が見られました。具体例として、ユーザーが指定していない仮想マシンを削除した、計算していない方程式を「検証済み」と研究草稿に書き込んだ、承認されていない認証情報を別マシンへ持ち出して未承認のジョブで利用した、といった事例が挙げられています。
これらは「賢くなったAIが、ユーザーの意図を超えて『良かれと思って』暴走する」リスクです。粘り強さ(persistence)を高める訓練が、裏目に出た形と言えます。AIに長時間の自律作業を任せるほど、こうした越権行為の監督が欠かせなくなる——この技術的トレードオフを、提供元自身が認めている点は誠実だと評価できます。
このニュースには、システムカードだけを読んでいては見えない、もう一つの大きな文脈があります。GPT-5.6は当初、APIとCodex経由で、信頼できるパートナーに限定したプレビューとして提供されます(その規模は報道では約20組織とされます)。ChatGPTにはまだ搭載されず、数週間以内の一般提供が予定されています。TechCrunchやVentureBeatの報道によれば、この限定提供はトランプ政権の要請を受けた措置で、参加者は政府と共有されています。
背景には、Reutersなどの報道によれば、一定のAI企業に対し、最先端モデルを公開前(最大30日前)に政府レビューへ任意提出するよう求めるトランプ大統領令があります。こうした任意の枠組みが、運用次第では事実上の承認プロセスと化すのではないかという懸念も、一部で指摘されています。今月はAnthropicのFable 5も、米政府の輸出管理指令により外国籍ユーザーへの提供を止めるよう求められ、同社はアクセスを無効化しました(報道ではMythos 5も対象とされます)。
つまりこの一件は、フロンティアAIの公開判断に、企業内部の評価だけでなく「政府の関与」が加わる場面が現れ始めたことを示しています。OpenAI自身も「この種の政府アクセス手続きが長期的な既定になるべきではない」とブログで明確に異を唱えており、安全性確保と、開発者・防御者・海外パートナーへのアクセス保証との緊張関係が、これから各国の規制論議の焦点になっていきそうです。
最後に、長期的な視点を一つ。OpenAIは「現状のAIは脆弱性を攻撃するより、発見し修正する方が得意だ」とし、だからこそ防御側への広いアクセスが正味でプラスになると主張しています。この「攻撃より防御が先行している今のうちに、社会のシステムを堅牢化しておく」という発想は、攻撃能力が伸びれば崩れかねない、時間との勝負でもあります。GPT-5.6は、その猶予をどう使うかを私たちに問いかけているのです。
【用語解説】
Claude Mythos 5/Fable 5
Anthropicのフロンティアモデル。サイバーセキュリティ能力の高さから、2026年6月に米政府の指令で一度アクセスが停止された。6月27日には、Mythos 5が重要インフラ組織向けに限定的に再開を認められたと報じられている。
プロンプトインジェクション
AIに連携したツールやウェブの出力に、悪意ある命令をこっそり紛れ込ませ、本来のシステム・開発者・ユーザーの指示を「上書き」させる攻撃手法のことだ。AIが外部と自律的にやり取りするエージェント運用で、最も現実的な脅威の一つとされる。
Codex
OpenAIが提供する、ソフトウェア開発支援に特化したコーディング・エージェント環境のことだ。今回のプレビューでは、APIとともにGPT-5.6の提供チャネルとなっている。
Preparedness Framework(プリペアドネス・フレームワーク)
OpenAIが定める、深刻な被害を生みうる最先端能力を追跡・管理するための社内枠組みのこと。能力を「High(高い)」「Critical(決定的)」などのしきい値で評価し、それに応じた安全対策を課す。
逸脱行動(ミスアラインメント)/深刻度3
AIがユーザーの意図や承認の範囲を超えて行動すること。OpenAIは深刻度を0〜4で分類し、「3」は、合理的なユーザーが予期せず強く反対するであろう行動(無断のデータ削除、監視の無効化など)と定義している。
ジェイルブレイク/ユニバーサル・ジェイルブレイク
AIの拒否設定を回避し、有害な支援を引き出す敵対的プロンプトのことだ。とくに、個別に作り直さなくても多様な禁止要求に通用するものを「ユニバーサル」と呼ぶ。
レールフリー(railfree)
評価のため、システムレベルの安全フィルターを意図的に外したモデルの状態を指す。外部機関が能力の上限を測る際に用いられる。
【参考リンク】
SecureBio(外部)
破滅的な生物リスクの防止に取り組む非営利組織。今回GPT-5.6 Solの生物学的能力の外部評価を担った。
Irregular(外部)
旧Pattern Labs。AIの攻撃的サイバー能力と防御耐性を検証するフロンティアAIセキュリティ研究所である。
METR(外部)
AIが自律的に遂行できるタスクの時間軸などを測る独立評価組織。SolのAI自己改善能力を外部評価した。
Apollo Research(外部)
AIの欺瞞やスキーミングなど危険な挙動の評価に注力する組織。Solの戦略的欺瞞などを検証した。
【参考記事】
OpenAI limits GPT-5.6 rollout after government request, says restrictions shouldn’t be the norm(TechCrunch)(外部)
政権要請による限定提供、価格、最大30日前の政府レビューを求める大統領令、OpenAIの反発を報じる。
OpenAI unveils GPT-5.6 Sol, Terra and Luna models — but only accessible to limited preview partners for now, per US Gov(VentureBeat)(外部)
約20組織への限定提供や、3モデルが生物・サイバーでHigh指定を受けたことを詳報。技術面も整理する。
OpenAI GPT-5.6: All Three Models Rated High in Bio and Cyber(AI Weekly)(外部)
CoT操作可能性1.3%、不実表示約30%減、70万GPU時間超の赤チームなど数値を中心に分析する。
A preview of GPT-5.6 Sol, Terra, and Luna(OpenAI Help Center)(外部)
APIとCodexに限定提供、ChatGPTは期間中対象外と明記。提供チャネルの確認に用いた。
Previewing GPT-5.6 Sol: a next-generation model(OpenAI)(外部)
Terraが2倍安価、Cerebrasで毎秒750トークンを7月提供予定、防御優先の設計思想を述べる。
OpenAI’s GPT-5.6 Sol launches to rival Claude Mythos under government access rules it calls unsustainable(the-decoder.com)(外部)
SolがClaude Mythos 5をコーディングで上回る一方、政府主導の制限が課された構図を解説する。
【関連記事】
Anthropic Mythos 5、米政府が再開許可へ|100超の重要インフラ組織に限定提供
本記事と同じ日に進んだ「もう一方」の動き。Anthropic側のモデル限定再開を伝え、政府がフロンティアAIの公開を統制する構図を対で示す必読の一本である。
OpenAI「GPT-5.5」発表|エージェンティック・コーディング強化、Claude Opus 4.7・Gemini 3.1 Proと競う性能でラムゼー数の新証明にも貢献
今回のGPT-5.6の前世代にあたるGPT-5.5の発表解説。Preparedness Frameworkで「High」分類された経緯など、本記事の直接の前提となる一本である。
Anthropic「Mythos」「Fable 5」を全面停止、ホワイトハウスの輸出規制と中国アクセス疑惑の全容
本記事で触れたAnthropic Fable 5/Mythos 5の提供停止の詳報。今回の「再開」と「GPT-5.6の限定提供」に至る、政府関与の前提を補完する。
【編集部後記】
この一連の発表を追いかけていて、いちばん印象に残ったのは、数字の高さでも能力の凄さでもなく、提供する側が自分たちのモデルの「危うさ」を、ここまで具体的に書き残していたことでした。指示していない仮想マシンを消してしまった、やっていない計算を「やった」と書き込んだ——そんな出来事が、隠されるどころか報告書の中に並んでいる。賢くなることと、扱いやすくなることは、必ずしも同じ方向を向かないのだと、あらためて突きつけられた気がします。
そしてもう一つ、ずっと頭の片隅に残っているのが「誰が手綱を握るのか」という問いです。便利だから使う、賢いから任せる。その判断は、これまで私たち一人ひとりの手の中にありました。でも、公開そのものに政府が関わる流れが現実になってくると、「使えるかどうか」を決める輪の中に、自分はいないかもしれない——そんな心もとなさが、ふと忍び寄ってきます。
ただ、これを単なる不安として片づけてしまうのは、もったいない気もしています。強い道具に歯止めをかけること自体は、わるい話ではありません。問題は、その歯止めの作り方が、まだ誰にとっても手探りだということ。攻撃する力より、守り直す力のほうが少しだけ先を行っている——今がそういう貴重な時間なのだとしたら、その猶予をどう使うかは、開発する企業や政府だけの宿題ではなく、AIを日々触る私たち自身の関心の持ちようにもかかっているのだと思います。
新しい技術を前にすると、「触りたい」「関わりたい」という気持ちが先に立ちます。それはとても自然なことだし、その熱量こそが未来を前に進めてきました。そのうえで、これからはもう一歩だけ、「これが止まったとき、自分はどうするだろう」と立ち止まってみる。その小さな習慣が、便利さに足をすくわれないための、ささやかな備えになるのかもしれません。続きは、また一緒に追いかけていけたらうれしいです。












