FrontierMath衝撃の結果：GPT-4やGemini 1.5も歯が立たない、AIの数学的推論能力の現在地

2024年11月12日8:31

AI（人工知能）ニュース

FrontierMath衝撃の結果：GPT-4やGemini 1.5も歯が立たない、AIの数学的推論能力の現在地 - innovaTopia - （イノベトピア）

Last Updated on 2024-11-12 08:31 by admin

研究グループEpoch AIは2024年11月11日、最新のAI数学能力評価ベンチマーク「FrontierMath」の結果を発表しました

主な事実は以下の通り

60名以上の著名な数学者と協力して作成された数百の研究レベルの数学問題で構成
フィールズ賞受賞者3名（テレンス・タオ、ティモシー・ガワーズ、リチャード・ボーチャーズ）が監修
評価対象となったAIモデル：
- GPT-4o（OpenAI）
- Gemini 1.5 Pro（Google）
- Claude 3.5 Sonnet（Anthropic）
  他3モデル
問題の特徴：
- 計算数論から抽象代数幾何学まで、現代数学の70%以上の分野をカバー
- 1問あたり数時間から数日の解答時間を要する高度な内容
- 推測による正解確率は1%未満

テスト結果

評価対象のAIモデル（GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet他）すべてが2%未満の解答率
従来の数学ベンチマーク（GSM-8KやMATH）では90%以上のスコアを記録

Epoch AIは今後もベンチマークの拡張と定期的な評価を継続する予定

from:AI’s math problem: FrontierMath benchmark shows how far technology still has to go

1/10 Today we're launching FrontierMath, a benchmark for evaluating advanced mathematical reasoning in AI. We collaborated with 60+ leading mathematicians to create hundreds of original, exceptionally challenging math problems, of which current AI systems solve less than 2%. pic.twitter.com/sNVEB6SvyJ
— Epoch AI (@EpochAIResearch) November 8, 2024

【編集部解説】

FrontierMathの登場は、AIブームの中で冷静な視点を提供する重要な指標となっています。

特に注目すべきは、このベンチマークが「AIができないこと」を示すためではなく、AIの真の進歩を測定するために設計されている点です。従来の数学テストでは、データ汚染（学習データに類似問題が含まれる）という課題がありましたが、FrontierMathは完全に新しい問題のみを使用することでこれを解決しています。

評価方法も革新的です。Python実行環境を提供し、AIが自由に試行錯誤できる仕組みを整えています。これにより、単なる答えの正誤だけでなく、問題解決のプロセスも評価対象となります。

このベンチマークが示す意味は重要です。現在のAIは「パターン認識」は得意でも、「創造的思考」や「深い理解」が必要な課題では著しく性能が低下します。これは、AIの進化における次の課題を明確に示しています。

【用語解説】

FrontierMath（フロンティアマス）
最先端の数学研究レベルの問題集。従来のAIテストが「高校数学」レベルだとすると、これは「大学院の博士課程」レベルの難しさです。
Epoch AI
AIの発展と社会への影響を研究する非営利組織。特にAIの進歩を客観的に測定することに注力しています。