advertisements

OpenAI、GPT-5.2のライティング品質低下を認める—コーディング重視の代償とは

OpenAI、GPT-5.2のライティング品質低下を認める—コーディング重視の代償とは

OpenAIのCEOサム・アルトマンは、1月下旬にタウンホールでGPT-5.2のライティング能力が低下したことを認めた。アルトマンは「失敗した」と述べ、GPT-5.2の開発において知能、推論、コーディング、エンジニアリングの能力向上に注力した結果、ライティング品質がおろそかになったと説明した。

同氏はこれを一時的なトレードオフと位置づけ、今後のモデルではすべての能力を向上させる意向を示した。AnthropicのClaudeはライティングとコーディングの両方で優れた性能を持つことで差別化しており、OpenAIはこれに追いつこうとコーディングに注力したとみられる。XやRedditでは新しいGPTバージョンのライティングが簡潔で機械的、ぎこちないという苦情が増加している。

From: 文献リンクWe “Screwed Up” GPT 5.2’s Writing Abilities By Focusing Too Much on Coding: OpenAI CEO Sam Altman

【編集部解説】

今回のアルトマンCEOの発言は、AI開発における本質的なジレンマを浮き彫りにしています。AIモデルの進化は常に全方位的に向上するわけではなく、開発リソースの配分によって「何を優先するか」という選択を迫られるという現実です。

OpenAIがGPT-5.2でコーディング能力を重視した背景には、競合との激しい競争があります。AnthropicのClaudeは、ライティングとコーディングの両方で高い評価を得ており、OpenAIはその技術的優位性を取り戻す必要に迫られていました。実際、GPT-5.2は大学院レベルの科学問題を含む複数のベンチマークにおいて、非常に高い推論能力を示していると開発側は説明しています。

しかし、この技術的飛躍の代償として、ユーザー体験の質が低下したことは看過できません。特にビジネス文書やマーケティングコンテンツの作成においてAIを活用している企業にとって、文章の自然さや読みやすさは極めて重要な要素です。「簡潔で機械的」な出力は、クライアント向けの提案書やメールには適していません。

アルトマン氏が「知能は驚くほど互換性のある(fungible)もの」と述べた点は興味深い視点です。これは、将来的には単一のモデルですべての能力を高水準で実現できるという技術的楽観論を示しています。ただし、その実現時期は明示されておらず、2026年第1四半期に「大きな改善」が期待されるとの情報もありますが、確約ではありません。

この事例が示すのは、AI開発における「完璧な汎用性」の追求がいかに困難かという点です。当面、ユーザーはタスクに応じて異なるモデルやバージョンを使い分ける必要があるでしょう。OpenAIの公式プロンプティングガイドでも、GPT-5.2が「より低い冗長性」を特徴とすることが記載されており、この傾向は意図的な設計選択であることが分かります。

【用語解説】

GPT-5.2
OpenAIが開発した大規模言語モデル(LLM)の最新バージョン。知能、推論、コーディング能力の向上に重点を置いて開発されたが、その結果としてライティング品質が低下したことがCEOによって認められた。

タウンホール
企業が従業員や関係者と直接対話する形式のミーティング。OpenAIではCEOのサム・アルトマンが参加者からの質問に答える場として定期的に開催されている。

GPQAスコア(Graduate-Level Google-Proof Q&A)
AIモデルの科学的推論能力を測定するベンチマーク。大学院レベルの物理、化学、生物学の問題で構成され、検索では答えられない「Google-proof(グーグルで解決できない)」な質問を用いて、真の理解力と推論能力を評価する。

X(旧Twitter)
イーロン・マスクが2022年に買収し、2023年にXへと名称変更したソーシャルメディアプラットフォーム。ユーザーはテキスト、画像、動画を投稿し、他のユーザーと交流できる。

【参考リンク】

OpenAI(外部)
ChatGPTやGPTシリーズを開発するAI研究機関。サム・アルトマンがCEOを務める。

Anthropic(外部)
AI安全性研究を重視するAI企業。Claudeを開発し、ライティングとコーディングで評価される。

Claude AI(外部)
Anthropicが開発したAIアシスタント。バランスの良さでGPT-5.2のベンチマークとなる。

【参考記事】

Sam Altman Says OpenAI “Screwed Up” GPT-5.2 Writing Quality(外部)
GPT-5.2のGPQAスコアが92%に達し、人間の専門家を上回る成績を記録したと報じる。

Sam Altman Acknowledges GPT‑5.2 Writing Regression(外部)
ライティング品質低下がビジネス文書作成やマーケティングに与える影響を分析する記事。

GPT-5.2 Prompting Guide(外部)
OpenAI公式ガイド。GPT-5.2の「より低い冗長性」という設計選択を説明している。

Sam Altman Says OpenAI “Screwed Up” GPT-5.2 Writing Quality(外部)
タウンホールでのアルトマンの発言を詳細に報道。リソース配分のトレードオフを伝える。 

【編集部後記】

みなさんは普段、AIをどのような用途で使っていますか?コード生成、文章作成、それともアイデア出し?今回の件は、AIが「万能」ではなく、開発側の選択によって得意・不得意が変わることを改めて示しました。

これからのAI選びでは、自分の目的に合わせて複数のモデルを使い分ける時代になるのかもしれません。みなさんがAIに最も求める能力は何でしょうか?そして、どんなトレードオフなら受け入れられますか?ぜひご自身の体験と照らし合わせて考えてみてください。

投稿者アバター
TaTsu
『デジタルの窓口』代表。名前の通り、テクノロジーに関するあらゆる相談の”最初の窓口”になることが私の役割です。未来技術がもたらす「期待」と、情報セキュリティという「不安」の両方に寄り添い、誰もが安心して新しい一歩を踏み出せるような道しるべを発信します。 ブロックチェーンやスペーステクノロジーといったワクワクする未来の話から、サイバー攻撃から身を守る実践的な知識まで、幅広くカバー。ハイブリッド異業種交流会『クロストーク』のファウンダーとしての顔も持つ。未来を語り合う場を創っていきたいです。

読み込み中…

innovaTopia の記事は、紹介・引用・情報収集の一環として自由に活用していただくことを想定しています。

継続的にキャッチアップしたい場合は、以下のいずれかの方法でフォロー・購読をお願いします。