Anthropicは2025年2月、世界初のハイブリッド推論AIモデル「Claude 3.7」を発表した。
主な特徴
– 通常の高速応答と詳細な推論処理を1つのモデルで自動的に切り替え可能
– モデルの思考プロセスを可視化する「スクラッチパッド」機能を搭載
– コーディングベンチマークSWE-benchでOpenAIのo1を上回る性能を達成
– 新ツール「Claude Code」も同時リリース
from:Anthropic Launches the World’s First ‘Hybrid Reasoning’ AI Model
【編集部解説】
Anthropicが発表した「Claude 3.7 Sonnet」は、AIの思考プロセスにおける重要な転換点を示すモデルといえます。従来のAIモデルは「高速だが浅い思考」か「遅いが深い思考」のどちらかを選ぶ必要がありましたが、このモデルは人間の思考に近い形で両方の処理を1つのモデルで実現しています。
特筆すべきは、ユーザーが思考モードを手動で切り替える必要がないという点です。これはGrok 3やDeepSeek-R1のような「マニュアル車」に対して「オートマチック車」のような違いがあると言えます。タスクの複雑さに応じて、モデルが自動的に適切な思考モードを選択します。
価格設定も注目に値します。入力100万トークンあたり3ドル、出力100万トークンあたり15ドルという料金体系は、「思考トークン」も含めて従来モデルと同じ価格を維持しています。これは、高度な機能を追加しながらもコストを抑える工夫が施されていることを示しています。
ベンチマーク結果からは興味深い特徴が見えてきます。ソフトウェアエンジニアリングのベンチマークSWE-benchや、ユーザーとツールの相互作用を測るTAU-benchでは、OpenAIのo1やo3-miniを上回る性能を示しています。一方で、数学問題解決や視覚的推論、多言語Q&A、大学院レベルの推論では、まだOpenAIのo1モデルに及びません。
実用面での可能性も広がっています。Anthropicの社内テストでは、フロントエンドのウェブサイト設計から、45分に及ぶ複雑なコーディングタスク、さらにはポケモンゲームのプレイまで、幅広いタスクをこなすことができています。
しかし、現時点でもリアルタイムのウェブ検索機能は搭載されておらず、知識のカットオフ日は2024年10月となっています。これは、モデルの応用範囲にまだ制限があることを示しています。
長期的な展望として、このような「ハイブリッド推論」モデルの登場は、AIの意思決定プロセスの透明性向上に貢献する可能性があります。特に企業での実務利用において、AIの判断根拠を理解し、必要に応じて修正できる機能は、AIの信頼性と説明責任の向上につながるでしょう。
ただし、このような高度な推論能力を持つAIの普及には、適切な利用ガイドラインと倫理的な配慮が不可欠です。特に、自律的な意思決定を行うAIシステムの責任の所在や、人間の監督の範囲について、社会的な議論が必要となってくるでしょう。