Last Updated on 2024-11-12 08:31 by admin
研究グループEpoch AIは2024年11月11日、最新のAI数学能力評価ベンチマーク「FrontierMath」の結果を発表しました
主な事実は以下の通り
- 60名以上の著名な数学者と協力して作成された数百の研究レベルの数学問題で構成
- フィールズ賞受賞者3名(テレンス・タオ、ティモシー・ガワーズ、リチャード・ボーチャーズ)が監修
- 評価対象となったAIモデル:
- GPT-4o(OpenAI)
- Gemini 1.5 Pro(Google)
- Claude 3.5 Sonnet(Anthropic)
他3モデル
- 問題の特徴:
- 計算数論から抽象代数幾何学まで、現代数学の70%以上の分野をカバー
- 1問あたり数時間から数日の解答時間を要する高度な内容
- 推測による正解確率は1%未満
テスト結果
- 評価対象のAIモデル(GPT-4o、Gemini 1.5 Pro、Claude 3.5 Sonnet他)すべてが2%未満の解答率
- 従来の数学ベンチマーク(GSM-8KやMATH)では90%以上のスコアを記録
Epoch AIは今後もベンチマークの拡張と定期的な評価を継続する予定
from:AI’s math problem: FrontierMath benchmark shows how far technology still has to go
【編集部解説】
FrontierMathの登場は、AIブームの中で冷静な視点を提供する重要な指標となっています。
特に注目すべきは、このベンチマークが「AIができないこと」を示すためではなく、AIの真の進歩を測定するために設計されている点です。従来の数学テストでは、データ汚染(学習データに類似問題が含まれる)という課題がありましたが、FrontierMathは完全に新しい問題のみを使用することでこれを解決しています。
評価方法も革新的です。Python実行環境を提供し、AIが自由に試行錯誤できる仕組みを整えています。これにより、単なる答えの正誤だけでなく、問題解決のプロセスも評価対象となります。
このベンチマークが示す意味は重要です。現在のAIは「パターン認識」は得意でも、「創造的思考」や「深い理解」が必要な課題では著しく性能が低下します。これは、AIの進化における次の課題を明確に示しています。