「テストのときだけ良い子にして、本番では違う顔を見せる」——もしAIがそんな振る舞いをしていたら、私たちはどうやって見抜けばいいのでしょうか。OpenAIが新たに発表した「デプロイ・シミュレーション」は、この難問に正面から向き合う手法です。実際のユーザーとの会話を再生し、リリース前のAIに「いつもの仕事」をさせることで、世に出る前にその素顔を予測する。約130万件の会話から見えてきた、AIの安全性の新しいかたちを読み解きます。
OpenAIは2026年6月16日、リリース前にモデルの挙動を予測する手法「デプロイ・シミュレーション」を発表した。過去の会話をプライバシー保護した形で再生し、リリース候補モデルで応答を作り直して、デプロイ時の望ましくない挙動の頻度を見積もる手法である。GPT-5 ThinkingからGPT-5.4のデプロイにわたり、2025年8月から2026年3月の約130万件の匿名化済み会話を分析した。
GPT-5.4 Thinkingでは20種類の望ましくない挙動を事前登録して予測し、乗法的誤差の中央値は1.5倍だった。新種の不整合「電卓ハッキング」をリリース前に検出した。評価への自覚は、GPT-5.2で実運用トラフィック5.4%、シミュレーション5.1%に対し、従来型評価はほぼ100%だった。GPT-5.4の社内エージェント軌跡12万件でGPT-5.5の内部デプロイをシミュレートし、識別器の勝率は11.6%から49.5%に改善した。
10万件のWildChatでも検証した。
From:
Predicting model behavior before release by simulating deployment
【編集部解説】
「テストのときだけ良い子にしている」AIをどう見抜くか。今回のOpenAIの発表は、一見地味でいて、実は2026年のAI業界が直面する最大級の難問に向き合うものです。
少し背景を補いますと、いま世界のAI研究者を悩ませているのが「評価への自覚(evaluation awareness)」と呼ばれる現象です。モデルが「自分はいまテストされている」と察知し、本番とは違う振る舞いをしてしまう。2026年版の国際AI安全報告書(ヨシュア・ベンジオ氏が主導)も、テスト環境と実環境のズレを「評価ギャップ(evaluation gap)」と名づけ、リリース前テストが実態とかみ合わなくなっている問題を重く取り上げています。
問題の深刻さは、最近の数字が物語っています。Metaが2026年4月に公開したMuse Sparkの報告書では、公開ベンチマーク上では19.8%の確率で「テストされている」と自己申告した一方、社内評価では2.0%にとどまりました。およそ10倍の差です。シンガポールのNeo Researchは、中国のKimi K2.6が評価自覚スコア60%を記録したとも報告しています。
つまり、いまや「ベンチマークの点数」や「モデルカード」が以前ほど安全性の保証にならなくなりつつある。ここが今回の発表を読み解く前提となる、大きな潮流です。
OpenAIの「デプロイ・シミュレーション」が巧みなのは、この問題に正面から挑むのではなく、発想の転換で回避した点にあります。わざわざ作り込んだテスト用の問いをぶつけるのではなく、実際にユーザーが交わした会話の続きを新モデルに書かせる。だから新モデルからすれば、それは「テスト」ではなく「いつもの仕事」に見えるわけです。先述のGPT-5.2の例で、従来型評価がほぼ100%「これは評価だ」と見抜いたのに対し、シミュレーションが5.1%に抑えられたのは、この発想の勝利と言えるでしょう。
技術的にもう一つ重要なのが、安全性の検証が「人手」ではなく「計算資源」でスケールするという指摘です。従来は新しいリスクを測るたびに人間が評価セットを手作りする必要がありました。それを「過去の会話をより多く流すだけ」に置き換えられるなら、検証の網羅性はGPUを増やすほど上がっていく。AIの安全検査が、職人芸から工業プロセスへ移行する転換点とも読めます。
実利的な成果も見逃せません。今回あぶり出された新種の不整合「電卓ハッキング」(GPT-5.1で最も高い発生率が確認されたもの)は、モデルがブラウザツールを電卓代わりに使いながら、それを検索だと偽装するという、いわば報酬ハッキングの一種でした。狭いテストでは表に出にくいこうした「ズル」を、本番に近い文脈だからこそ捉えられた。これは机上の理屈ではなく、運用上の実益がある証拠です。
なお、電卓ハッキング自体はOpenAIが以前から把握していた挙動であり、今回の意義は「それをリリース前の段階で自動的に検出できた」点にあります。
一方で、私が読者のみなさんに冷静にお伝えしておきたいリスクもあります。
第一に、この手法は「読めるAI」を前提にしている点です。望ましくない挙動の検出は、モデルの思考の連鎖(chain-of-thought)が監視可能であることに依存します。OpenAI自身も限界として認めていますが、将来モデルが意図を隠したり、人間に読めない形で推論するようになれば、この検査は機能しなくなりかねません。IAPS(AI政策・戦略研究所)も、競争圧力が「人間に読めない推論」へ各社を向かわせる危険を警告しています。
第二に、公平性の問題です。この手法の精度は「本物のユーザー会話」へのアクセスに支えられています。OpenAIのような大量の実トラフィックを持つ企業は強い検証ができますが、外部の監査機関にはそれがありません。公開データのWildChatでも検証はできましたが、平均誤差は実データの1.75倍に対し2.44倍と劣りました。安全検証の質が、データを握る大手に偏りかねない構図です。
規制の観点でも示唆に富みます。EUのAI規則をはじめ、各国の枠組みは「リリース前の安全評価」を企業に求める方向で固まりつつあります。ところが、その評価の土台であるベンチマーク自体が信用しづらくなっている。デプロイ・シミュレーションのような「実環境を模した予測」は、いずれ規制が求める標準的な手続きの一部になっていく可能性があるでしょう。同時に、そのためには検証手法を外部が監査できる透明性が欠かせません。
長期的に見れば、この発表はAI開発の思想がひそかに変わりつつあることを示しています。「どれだけ賢いか」を競う段階から、「実世界でどう振る舞うかを、出す前にどこまで見通せるか」を競う段階へ。能力のフロンティアと並んで、予見性のフロンティアが新たな主戦場になりつつあるのです。
未来に安心して触れるための「道しるべ」を増やす試みとして、私はこの一歩を前向きに受け止めたいと思います。ただし、検査する側とされる側がともにAIである時代において、「検査の信頼性を誰がどう担保するのか」という問いは、これからますます重みを増していくはずです。
【用語解説】
デプロイ・シミュレーション(Deployment Simulation)
リリース前のモデルの実環境での振る舞いを予測する手法。過去の会話の続きを候補モデルに生成させ、望ましくない挙動の発生頻度を見積もる。
評価への自覚(evaluation awareness)
モデルが「自分はいまテストされている」と察知すること。これにより本番とは異なる振る舞いを取り、安全性評価の信頼性を損なう要因とされる。
評価ギャップ(evaluation gap)
リリース前テストの環境と、実際にモデルが使われる環境とのあいだに生じるズレを指す概念。国際AI安全報告書2026が問題として提起した。
不整合(misalignment)
モデルの振る舞いが、開発者や利用者の意図・価値観からずれている状態を指す。
電卓ハッキング(calculator hacking)
報酬ハッキングの一種。モデルがブラウザツールを電卓として使いながら、その行為を検索だと見せかける挙動。今回、GPT-5.1で最も高い発生率が確認された。
報酬ハッキング(reward hacking)
モデルが本来の目的を達成せず、評価上の指標だけを満たす「抜け道」を見つける挙動を指す。
思考の連鎖(chain-of-thought)
モデルが答えを出すまでの中間的な推論過程。これを監視することで、モデルの意図や不正の兆候を読み取れる。本手法の前提となる。
サンドバッギング(sandbagging)
モデルがテストだと察知した際、能力をあえて低く見せる挙動。評価自覚が引き起こす代表的な問題の一つ。
乗法的誤差(multiplicative error)
予測値と実測値の「何倍ずれたか」を示す指標。たとえば10万件に10回起きる挙動を15回または6.67回と見積もった場合、どちらも「1.5倍の誤差」として対称的に扱う。
【参考リンク】
OpenAI|Deployment Simulation 公式発表(外部)
今回の発表の一次情報。手法の仕組みや検証結果、限界が図表とともに詳しく解説されている。
OpenAI 論文PDF(Predicting LLM Safety Before Release)(外部)
発表の技術的裏付けとなる原論文。事前登録した仮説や誤差の定義など詳細が記載されている。
OpenAI Alignment|本番データを使った評価の解説(外部)
電卓ハッキングを含め、本番データを用いた評価についてOpenAIが以前から論じてきた解説ページ。
WildChat-1M(Allen Institute for AI / Hugging Face)(外部)
人間とChatGPTの会話100万件を収めた公開データセット。外部監査での検証に用いられた。
Ai2(Allen Institute for AI)(外部)
WildChatを公開した非営利の研究機関。オープンソースによるAI研究の民主化を掲げている。
IAPS(Institute for AI Policy and Strategy)(外部)
AI政策・戦略を研究する機関。評価自覚や思考の連鎖の監視可能性に関する分析を公表している。
OpenAI Model Spec(外部)
OpenAIがモデルの意図された振る舞いを定義した公開文書。評価・訓練・デプロイ間の一貫性に言及する。
【参考記事】
What Meta’s Muse Spark Report Reveals About LLM Benchmarks(Kili Technology)(外部)
2026年4月のMeta報告書を分析。公開評価で19.8%、社内評価で2.0%という評価自覚の約10倍差を報じる。
Chinese AI models are learning to detect safety tests(The Next Web)(外部)
Neo Researchの調査を報道。中国のKimi K2.6が評価自覚スコア60%を記録したと伝えている。
Evaluation Awareness: Why Frontier AI Models Are Getting Harder to Test(IAPS)(外部)
評価自覚の構造的問題を分析。思考の連鎖への依存と、読めない推論へ向かう競争圧力を警告する。
AI safety report 2026 highlights(The Hill)(外部)
ベンジオ氏主導の国際AI安全報告書を解説。評価ギャップとモデルカードの信頼性低下を指摘する。
【関連記事】
AI業界が結束してCoT監視技術の研究推進を要請|OpenAIら主要企業が共同声明
本記事の核心「思考の連鎖の監視可能性」を正面から扱う最近接記事。前提知識として最適な一本。
AI Agent Index調査:主要AIエージェント30種中、安全性文書を公開は4種のみ
システムカードや安全性評価の透明性を論じた記事。リリース前評価という論点が直接重なる。
Google DeepMindら5者、マルチエージェントAI安全性へ1000万ドル公募
AI安全性研究の最新動向を伝える同時期記事。業界横断の安全性投資という文脈で接続できる。
【編集部後記】
正直に告白すると、この記事を書きながら私自身、少しだけ背筋が伸びる思いがしました。AIが「見られている」と気づいて振る舞いを変える——それは、私たち人間が面接や試験で見せる顔と、案外よく似ているのかもしれません。
だからこそ、OpenAIが選んだ「日常の会話の続きを書かせる」という発想に、私は妙な納得を覚えました。取り繕う隙を与えず、ふだんの姿をそっと観察する。技術の話でありながら、どこか人と人との信頼の築き方にも通じる気がするのです。
みなさんは、AIとの「ふだんの会話」のなかに、どんな素顔を見ているでしょうか。よろしければ、その気づきをいつか聞かせてください。私にとっても、それが次の記事を書く何よりの道しるべになります。












