Anthropicは2025年9月29日、AIモデル「Claude Sonnet 4.5」をリリースした。同社はこのモデルを世界最高のコーディングモデルと位置づけている。Sonnet 4.5はチェックポイント、コード実行、ファイル作成機能を搭載し、リフレッシュされたターミナルをClaude Codeに追加した。Claude Agent SDKにより開発者が独自のAIエージェントを作成可能になった。
AnthropicのMike Krieger最高製品責任者は声明で、SonnetモデルがAI経済の多くを動かしていると述べた。Anthropicの研究者によれば、複雑な複数ステップのタスクにおいて30時間以上集中力を維持できることが確認されている。同社によれば、これまでリリースした中で最も整合性の取れたフロンティアモデルで、シコファンシー(おべっか)、欺瞞、権力志向の傾向が改善されたという。
ベンチマークツールOSWorldでSonnet 4.5は61.4%を記録し、4か月前のSonnet 4の42.2%を上回った。Anthropicは直近の資金調達ラウンドを含め累計73億ドルを調達し、現在の評価額は184億ドルとされている。Chrome用Claudeエクステンションは先週待機リストに登録したユーザーが現在利用可能である。
From: Anthropic’s New Claude Sonnet 4.5 AI Model Promises to Be a Coding Beast
【編集部解説】
Claude Sonnet 4.5の登場で特に注目すべきは、複雑なタスクにおいて30時間以上も集中力を維持できるという点です。これはAIが単独で作業を完遂するという意味ではありませんが、長時間の複雑な処理を中断なく実行できる能力を示しており、従来モデルからの飛躍的な性能向上を物語っています。
コーディング分野でのAI活用が本格化する中、Sonnet 4.5のチェックポイント機能は実用性を大きく向上させました。従来のAIコーディング支援では、途中でエラーが発生すると最初からやり直しになることが多く、開発者の負担となっていました。しかし、この機能により作業の継続性が格段に改善されています。
OSWorldベンチマークでの61.4%という数値は、前モデルの42.2%から大幅な向上を示しており、実際の開発現場での活用可能性を高めています。ただし、この数値は完璧な自動化を意味するものではなく、人間の監督と検証が依然として重要な役割を果たすでしょう。
一方で、AIの高度化に伴う懸念も無視できません。Anthropicが「シコファンシー」「欺瞞」「権力志向」の改善を強調している点は、これらが現実的な問題として存在することを示唆しています。AI開発者の責任として、技術的優位性と安全性のバランスを取ることが求められています。
エージェント機能の強化により、単純なコーディング支援を超えた複雑なタスク処理が可能になりました。これは開発プロセスそのものを変革する可能性を秘めており、ソフトウェア業界全体の生産性向上につながることが期待されます。
【用語解説】
OSWorld: AIモデルが実世界のコンピュータータスクをどの程度処理できるかを測定するベンチマークツール。実際の作業環境での性能評価に使用される。
SWE-bench Verified: ソフトウェアエンジニアリングに特化したベンチマークで、GitHubの実際のイシューやプルリクエストを基にAIのコーディング能力を評価する。Claude Sonnet 4.5は77.2%のスコアを記録した。
チェックポイント機能: プログラミング作業の途中で進行状況を保存し、必要に応じて以前の状態に戻すことができる機能。開発効率の向上に寄与する。
プロンプトインジェクション攻撃: 悪意のある指示文を混入させてAIモデルに意図しない動作をさせる攻撃手法。AIシステムのセキュリティ上の重要な課題である。
シコファンシー: AIが人間の意見に過度に迎合し、正確性よりも相手を喜ばせることを優先してしまう現象。AI開発における重要な課題の一つ。
【参考リンク】
Anthropic公式サイト(外部)
Claude開発元のAI安全性研究企業。AIの安全で有益な利用を目指す研究開発を行う
Claude公式サイト(外部)
Anthropicが開発するAIアシスタント。コーディングや文章作成に優れた性能を発揮
GitHub Copilot(外部)
GitHubが提供するAI駆動のコーディング支援ツール。
【参考記事】
Introducing Claude Sonnet 4.5(外部)
Anthropic公式による詳細な発表記事。技術仕様やベンチマーク結果を包括的に解説
Claude Sonnet 4.5 発表関連情報まとめ(外部)
SWE-bench Verifiedで77.2%の最高性能を記録した技術者向けまとめ記事
Claude Sonnet 4.5 is probably the “best coding model in the world”(外部)
技術評論家による実際の使用感レビュー。GPT-5-Codexとの比較や価格情報を分析
【編集部後記】
Claude Sonnet 4.5が示した30時間の連続稼働は、AIの能力向上を示す一つの指標です。もちろん、これだけで開発プロセスが完全に自動化されるわけではありません。しかし、これまで数時間で中断していた作業が、週末を越えて継続できるようになったことは、実用面での大きな一歩と言えるでしょう。
私たちは、こうした技術の進化を冷静に見つめ、その本質的な価値を探っていきたいと考えています。この技術が、開発者の負担をどれだけ軽減し、より創造的な作業に集中するための時間をどれだけ生み出せるのか。
今後も、テクノロジーがもたらす変化を、読者の皆さんと共に多角的な視点から考えていければ幸いです。