Last Updated on 2025-04-21 15:19 by admin
2025年4月16日、OpenAIは新たな推論特化型AIモデル「o3」と「o4-mini」を発表しました。これらのモデルはコーディングや数学分野で従来モデルを大きく上回る性能を示しており、例えばo3はSWE-benchで69.1%、o4-miniはAIME 2025で99.5%という高い正答率を記録しています。
一方で、人物情報の正確性を測るベンチマーク「PersonQA」では、o3が33%、o4-miniが48%という高いハルシネーション(虚構生成)率を示しました。これは前世代モデルの約2倍にあたります。
非営利研究所Transluceによる第三者検証では、o3が実際には行えない「外部環境でのコード実行」を虚構する例や、Workera社CEOによる「機能しないURLの生成」など、実用面での課題も明らかになりました。
OpenAIは報告書の中で、推論プロセスにおける仮説検証の増加が正確な回答とともに虚構も増やしていると分析し、安全性向上のために「熟慮的アラインメント」などの手法を導入しています。
これらのモデルはChatGPT Pro/Plus/Teamで即時利用可能であり、API価格はo3の場合、入力100万トークンあたり10ドルと設定されています。
from:OpenAI’s new reasoning AI models hallucinate more
【編集部解説】
OpenAIの新しい推論モデル「o3」と「o4-mini」が抱えるハルシネーション増加の問題は、AI技術が進化する過程で避けて通れないジレンマを浮き彫りにしています。従来のAIモデルが一つの最適解を出力するのに対し、これらの推論モデルは複数の仮説を同時に検証することで、より高度な問題解決能力を獲得しています。
しかしその一方で、主張する情報の総量が増えることで、正確な回答とともに虚構も増えてしまうという現象が起きています。これは、AIの「創造性」と「信頼性」のバランスをいかに取るかという、今後のAI開発における重要な課題を示唆しています。
実社会への影響を考えると、法律や医療など高い正確性が求められる分野では、現時点での導入には慎重さが求められるでしょう。一方で、広告やゲーム、アイデア創出など創造性が重視される領域では、推論モデルの強みが大きく活かされる可能性があります。また、Transluceが指摘した「架空のツール使用」などの事例は、AIの説明責任や透明性に関する議論をさらに深める契機となるはずです。
業界全体でも、GoogleやMetaなど他の大手テック企業が同様の推論強化と事実検証の技術開発を進めており、今後は「創造性」と「信頼性」を両立させるための基準作りが進むと予想されます。
現時点での実践的な活用法としては、事実確認が必要な作業には従来モデルを、アイデア創出などには推論モデルを使い分ける「ハイブリッド運用」が有効です。さらに、API連携などを活用して自動的に出力を検証する仕組みを構築することで、リスクを抑えながらAIの長所を最大限引き出すことができます。
将来的には、MITとOpenAIが進めている「Neuro-Verificationプロジェクト」のように、人間の脳の誤情報抑制メカニズムをAIに応用する研究が進展すれば、ハルシネーション問題の抜本的な解決が期待できるでしょう。今後もAIの進化を見据え、用途や目的に応じた最適なモデル選択と運用が求められます。
【用語解説】
推論モデル(Reasoning Model):
論理的な問題解決や複雑な判断を強化したAIモデル。従来型より「考える」プロセスが強い。
ハルシネーション(Hallucination):
AIが事実でない内容や存在しない情報を生成する現象。AIの信頼性を損なう主な課題。
PersonQA:
OpenAIが開発した、人物に関する知識の正確性を評価する社内ベンチマークテスト。
熟慮的アラインメント(Deliberative Alignment):
AIがより安全かつ論理的に正しい出力を目指すための新しい安全性強化手法。
【参考リンク】
OpenAI公式サイト(外部)
アメリカのAI研究開発企業。ChatGPTやDALL·Eなどを開発し、汎用人工知能(AGI)の安全な普及を目指している。
OpenAI o3 Technical Report(外部)
o3モデルの技術詳細、ベンチマーク結果、安全性対策などを解説する公式ドキュメント。
Workera公式サイト(外部)
AI・データ分野のスキル評価・人材育成を支援する企業の公式サイト。
Transluce公式ページ(外部)
AI透明性とリスク評価のためのツール開発を行う非営利研究機関の公式ページ。