「2027年にAGI到来」という予測から一転、最新モデルは2031年へと約3年延長されました。しかし、これは決して遠い未来の話ではありません。専門家の予測が定義によって69年も開く中、私たちはどのようにこの不確実性と向き合えばいいのでしょうか。
エリファンド、ビーハルステッド、アレックス・カストナー、ダニエル・ココタイロは2025年12月31日、AIアライメントフォーラムでAIタイムラインと離陸モデルのアップデートを公開した。
このモデルは自動化コーダー(AC)や人工超知能(ASI)などの能力マイルストーンに到達する時期を予測する。インタラクティブなウェブサイトはaifuturesmodel.comで公開されている。新モデルは以前のAI 2027モデルと比較して、コーディングの完全自動化までのタイムラインを約3年長く予測する。
Epochデータセットによると、フロンティアAI企業の収益は現在約200億ドルで年間約4.1倍で成長している。2023年のAI学者調査ではAGIの中央値は定義により2047年または2116年だった。MetaculusやManifoldなど複数の予測市場の集約(Goodheart Labs)では、集計時点によって変動はあるものの、AGI到来の中央値は2031年前後と示されている。モデルはMETR-HRSベンチマークを使用する。イーライの全体予測は中央値2032.5年、著者の一人であるダニエルはモデル結果と前提(例:直近の成長率)によっては、自動化コーダー(AC)が2030年前後に到達しうる可能性を示している。
From:
AI Futures Timelines and Takeoff Model: Dec 2025 Update
【編集部解説】
このAIフューチャーズモデルは、AI能力の進化を予測する試みとして注目に値します。特に重要なのは、単なる直感や楽観論ではなく、定量的なデータに基づいてタイムラインを示そうとしている点です。
モデルの核心となるのは、METRが開発したコーディングタイムホライズンベンチマークです。METRは、AIエージェントが自律的に完了できるタスクの長さを、人間の専門家がそのタスクを完了するのにかかる時間で測定しています。このメトリックは過去6年間で約7ヶ月ごとに倍増しており、最近では4ヶ月まで加速している可能性があります。
しかし、このベンチマークには重要な限界があります。METRの研究では、早期2025年のAIツールを使用した開発者が、ツールなしよりも19%遅くなったという結果が出ています。つまり、ベンチマーク上の成績と実際の生産性向上には大きなギャップが存在する可能性があるのです。
今回のモデルが以前のAI 2027モデルから大幅に修正された最大の理由は、AI研究開発の自動化効果を過大評価していたことへの反省です。具体的には、完全自動化に至る前の段階でAIが人間の研究開発をどれだけ加速できるかについて、より保守的な見積もりに変更されました。この結果、コーディング完全自動化の中央値予測が約3年延びています。
専門家の予測が大きく分散している点も見逃せません。2023年のAI研究者調査では、AGIの到来時期について、定義によって2047年と2116年という69年もの差が生じました。これは「すべてのタスクで人間を上回る」という定義と「すべての職業を自動化できる」という定義の違いによるものですが、専門家自身がAGIの概念について明確な共通理解を持っていないことを示しています。
一方、テクノロジー企業のリーダーたちは概して楽観的です。AnthropicやOpenAIは2027年から2028年という予測を示しており、Metaculusなどの予測市場を集約した推定では、AGI到来の中央値は2031年前後とされています。こうした予測の幅の広さ自体が、現時点での予測の不確実性の高さを物語っています。
このモデルが定義する3つのステージも理解しておく必要があります。ステージ1は「コーディングの自動化」で、AIがプログラミング作業を完全に代替できる段階です。ステージ2は「研究テイストの自動化」で、実験の選択や研究方向の設定までAIが行える段階を指します。ステージ3は「知能爆発」で、AIが自己改善を加速させる段階です。
著者のイーライ氏とダニエル氏は、モデルの出力にさらに独自の調整を加えています。未知のモデル限界やデータボトルネックの可能性を考慮し、イーライ氏は中央値を2032.5年に置く一方、ダニエル氏も前提次第では自動化コーダー(AC)が2030年前後に到達しうる可能性を示しています。両者とも、モデルが捉えきれていない要因として、ハードウェア研究開発の自動化や経済全体の自動化の可能性を挙げています。
日本の技術業界にとって、このような予測モデルの意義は大きいでしょう。2030年代初頭という時間軸は、現在進行中のDX投資や人材育成戦略に直接影響を与える可能性があります。特に、ソフトウェア開発における人材需要が今後5〜10年でどう変化するかは、企業戦略の根幹に関わる問題です。
ただし、このモデルの著者たち自身が強調しているように、これらの予測を絶対視すべきではありません。彼らは「不確実性が高く、直感的判断も必要」と明言しています。むしろ、こうした定量的なモデルを参照点としながら、技術トレンドを注意深く観察し続けることが重要です。
今後注目すべきは、METRのタイムホライズンが実際にどう推移するか、そして実際の開発者生産性向上の研究がどう進展するかです。また、METR自身はベンチマークの継続的な更新を目指しているが、AI能力の急速な向上により、評価手法の見直しが求められる可能性もあり、その場合は別の指標が必要になるかもしれません。
【用語解説】
自動化コーダー(AC / Automated Coder)
AGIプロジェクトのコーディング作業を完全に自動化し、プロジェクトのコーディングスタッフ全体を置き換えることができるAIシステムを指す。プログラミングタスクを人間の介入なしに遂行できる段階。
人工超知能(ASI / Artificial Superintelligence)
事実上すべての認知タスクにおいて、最高の人間の能力を大幅に上回るAIシステム。最高の人間と中央値の専門家とのギャップの2倍以上の差を持つ。
スーパーヒューマンコーダー(SC / Superhuman Coder)
AGIプロジェクトの全コーダーが最高のコーダーと同等の能力を持ち、それぞれが30倍高速化され、30コピー存在する状態と同等の生産性を持つAI。AI 2027モデルにおける主要マイルストーン。
スーパーヒューマンAI研究者(SAR / Superhuman AI Researcher)
コーディングと研究テイストの両方で最高の人間研究者に匹敵するAI。AI研究開発を完全に自動化し、人間研究者を不要にできる段階。
AGI(人工汎用知能 / Artificial General Intelligence)
ほぼすべての認知タスクを人間と同等以上に実行できるAI。定義は研究者によって異なり、本モデルではACやSAR、ASIなど、より具体的な概念で置き換えている。
タイムホライズン
AIエージェントが自律的に完了できるタスクの長さを、人間の専門家がそのタスクを完了するのにかかる時間で測定した指標。50%タイムホライズンは、AIが50%の確率で成功できるタスクの長さを示す。
研究テイスト(Research Taste)
研究方向の選択、実験の選定、実験結果の解釈など、研究における判断力や洞察力を指す。単なるコーディング能力とは異なる、研究者としての質的な能力。
知能爆発(Intelligence Explosion)
AI研究開発が完全に自動化された後、AIが自己改善を加速させ、連続した能力倍増が時間とともに速くなる現象。ソフトウェアインテリジェンス爆発(SIE)とも呼ばれる。
AIアライメントフォーラム(AI Alignment Forum)
AI安全性とアライメント(人間の価値観との整合性)に関する研究や議論を行うオンラインコミュニティ。LessWrongの姉妹サイト。
フロンティアAI(Frontier AI)
その時点で最も先進的な能力を持つAIモデルやシステムを指す。現在はGPTシリーズ、Claude、Geminiなどが該当する。
【参考リンク】
AI Futures Model(外部)
AIの能力マイルストーン到達時期を予測するインタラクティブなモデル。パラメータ調整可能。
METR(外部)
AIシステムの危険能力を評価する非営利研究組織。コーディングタイムホライズンベンチマーク開発。
AI 2027(外部)
AI Futures ProjectによるAGI到来シナリオとタイムライン予測。今回のモデルの前身。
Metaculus(外部)
数百人の予測を集約する予測プラットフォーム。AGI到来を2031年で50%確率と予測。
Epoch AI(外部)
AI進歩のトレンドを定量的に分析する研究組織。GATEモデルなどのタイムライン予測開発。
Anthropic(外部)
Claude AIシリーズを開発するAI安全性研究企業。2027年のAGI到来を予測。
OpenAI(外部)
GPTシリーズやChatGPTを開発。CEOが2028年頃のAGI到来を示唆。
LessWrong(外部)
合理性とAI安全性に関する議論を行うコミュニティサイト。本記事の元記事掲載先。
【参考記事】
AI Futures Model: Dec 2025 Update(外部)
AIタイムラインモデルの公式解説。自動化コーダー予測が約3年延長された理由を詳述。
Measuring AI Ability to Complete Long Tasks – METR(外部)
タイムホライズンベンチマークの測定方法を説明。過去6年間で7ヶ月ごとに倍増を報告。
Shrinking AGI timelines: a review of expert forecasts | 80,000 Hours(外部)
AI専門家によるAGI到来時期の予測をレビュー。2023年調査で前年から13年短縮。
Details about METR’s evaluation of OpenAI GPT-5.1-Codex-Max(外部)
GPT-5.1-Codex-Maxの評価レポート。今後6ヶ月でAI研究開発10倍加速は困難と結論。
Research Update: Algorithmic vs. Holistic Evaluation – METR(外部)
AI能力ベンチマーク(タイムホライズン)と、実務環境での生産性評価の違いを整理し、両者の乖離をどう解釈すべきかを論じた研究アップデート。
Thousands of AI Authors on the Future of AI(外部)
2,778人のAI研究者調査論文。HLMI到来時期が2060年から2047年へ13年短縮。
Even after GPT-4, AI researchers forecasted a 50% chance of AGI by 2047 or 2116 – EA Forum(外部)
2023年調査結果を分析。定義により予測が69年の差を指摘し専門家の理解不足を論考。
【編集部後記】
2030年代初頭という予測は、私たちの多くがまだ現役で働いている時間軸です。みなさんの職場では、AIツールの導入はどこまで進んでいるでしょうか。実際に使ってみて、生産性は上がりましたか?それとも、ベンチマークと現実のギャップを感じているでしょうか。
この記事で紹介したモデルは一つの見方に過ぎませんが、専門家たちの予測が大きく分かれている今だからこそ、技術トレンドを注意深く観察し続けることに意義があると感じています。もしよろしければ、みなさんが日々の業務で感じているAIの可能性や限界について、ぜひSNSなどで共有していただけると嬉しいです。
































