Last Updated on 2025-08-09 22:47 by りょうとく
OpenAIはGPT-5のライブ配信で複数のチャートを提示したが、一部で数値とバーの長さが一致しない不整合が確認された。このうち「deception evals across models」では、GPT-5の「coding deception」が50.0%と示される一方、o3の47.4%の方が長いバーになるなど、視覚と数値が矛盾していた。
別のチャートでは、GPT-5のスコアがo3より低いにもかかわらず、より大きなバーで表示され、o3とGPT-4oのスコアが異なるのに等しい長さのバーが示された。サム・アルトマンCEOはXで「mega chart screwup」とコメントし、修正版はOpenAIのブログにあると述べられた。
OpenAIのマーケティング担当者もXで「unintentional chart crime」を謝罪した。同社は新モデルで「幻覚の大幅な削減」を強調しており、発表当日の可視化ミスは注目を集めた。
From: OpenAI gets caught vibe graphing
【編集部解説】
今回の可視化不整合は、評価そのものの信頼を損なう「伝達工程の品質管理」課題を浮き彫りにしました。アルトマン氏が即座に「mega chart screwup」と認め、修正版はブログにあると明示した事実は、図表が意思決定に与える影響の大きさを示しています。
OpenAIはブログで、GPT-5の事実誤認低減や誠実性(不可能課題や不足情報時の応答)に関する評価条件と結果を整理しています。LongFactやFActScore、マルチモーダル評価での挙動、そして実運用に近い会話データでの欺瞞率の測定など、検証の枠組みを公開した点は前進と言えます。
一方で、ステージ上の図表とブログ掲載の数値・スケールの齟齬は、計測→編集→デザイン→上映という可視化サプライチェーンのどこかで統制が崩れ得ることを示しました。官公庁・医療・金融のようにリスク許容度の低い領域では、図表の不整合が調達や規制議論に直結しかねません。一次データに立ち返る運用や、値とバー長の自動整合チェック、軸スケールの固定、凡例・誤差表示の統一といった「可視化ガバナンス」の導入が急務です。
他媒体も「チャートの誤り」自体を確認・報じていますが、同時にGPT-5の幻覚低減や誠実性改善の文脈も取り上げています。重要なのは、性能主張と可視化表現が一貫していることを第三者が検証できる状態を保つことです。今後はシステムカードやブログの開示粒度に、図表生成のメタデータ(スケール、正規化、作図ツール)まで含める動きが強まると見ています。
総じて、評価は「数値×設計×表現」の三位一体で信頼が担保されます。チャート一枚の破綻がメッセージ全体の信頼曲線を下げる時代に、公開前の可視化CI的な自動検査と、公開後の迅速な訂正フローが競争力を左右するでしょう。
【用語解説】
deception evals(欺瞞評価):
不可能または情報が欠落した課題で、モデルができないことをできるかのように示す傾向を測る評価の総称である。
coding deception:
コーディング領域での欺瞞評価。実行不可能な課題での「成功」といった誤った自己申告を検出する。
hallucinations(幻覚):
事実無根の内容をもっともらしく生成する誤りで、GPT-5では低減が報告されている。
thinking(思考):
推論過程を拡張するモード。思考時に事実誤認や欺瞞が低下する傾向が示されている。
【参考リンク】
Introducing GPT‑5(外部)GPT‑5の概要、幻覚低減や誠実性評価、ベンチマークと実運用評価の要点を説明する。
Sam AltmanのX投稿(外部)「mega chart screwup」との言及と、正しい版はブログにあるとの案内が確認できる。
OpenAI promises 80% fewer hallucinations with GPT‑5 debut(外部)GPT‑5の幻覚低減や欺瞞評価の主張、外部視点での整理と補足を提供する。
【参考記事】
OpenAI promises 80% fewer hallucinations with GPT‑5 debut(外部)GPT‑5の幻覚低減や誠実性評価、実運用に近い会話データでの測定などの主張を整理する。
Introducing GPT‑5 – OpenAI(外部)GPT‑5の設計方針、評価ベンチや実験条件、幻覚・欺瞞に関する一次情報を提供する。
GPT‑5 is alive – Platformer(外部)初期レビューと価格、可視化ミスの指摘や謝罪の経緯に触れ、全体像を俯瞰する。
【編集部後記】
可視化のほころびは誰にでも起こり得ます。みなさんは、イベント資料と一次情報のどちらから確認していますか。図表を見る前に数値表を点検するコツや、社内の可視化チェックの工夫があれば、ぜひ共有してください。