Cursor「Composer 2」登場—自社開発モデルで外部依存低減を狙うか

[更新]2026年3月24日

Cursorは2026年3月19日、コーディングモデル「Composer 2」の提供開始を発表した。

価格は入力トークン100万件あたり0.50ドル、出力トークン100万件あたり2.50ドルである。同等の性能を持つ高速バリアントも用意されており、入力100万件あたり1.50ドル、出力100万件あたり7.50ドルで、デフォルトのオプションとなっている。

Terminal-Bench 2.0およびSWE-bench Multilingualを含む全ベンチマークで改善を達成した。初の継続的事前学習と強化学習を組み合わせたトレーニングにより、数百のアクションを必要とするタスクへの対応が可能となっている。

From: 文献リンクIntroducing Composer 2 – Announcements – Cursor – Community Forum

【更新(2026年3月24日)】Composer 2がMoonshot AI(中国)のオープンソースモデル「Kimi k2.5」をベースに構築されていたことが判明し、Cursorが公式に認めました。詳細を編集部解説末尾に追記しています。

【編集部解説】

Cursor(運営:Anysphere)が2026年3月19日に発表した「Composer 2」は、単なるモデルアップデートではありません。AIコードエディタの会社が、OpenAIやAnthropicといったモデル提供者と真っ向から競合する独自のフロンティアモデルを自社開発したという点で、業界の構造変化を象徴する出来事です。

今回の技術的な核心は、「継続的事前学習(continued pretraining)」と「強化学習(reinforcement learning)」の組み合わせにあります。さらに注目すべきはCursorが「self-summarization(自己要約)」と呼ぶ手法で、AIが長時間の作業中に自分自身のコンテキストを圧縮・要約する能力を学習します。これにより、従来のAIエージェントが複雑な作業の途中で「忘えれてしまう」という課題を大幅に軽減しており、数百のアクションにわたる長期タスクの完遂が現実的になりました。

ベンチマークの数字を冷静に見ると、Composer 2はすべての指標で前世代を大きく超えているものの、万能ではありません。Terminal-Bench 2.0ではGPT-5.4が75.1とリードしており、SWE-bench MultilingualではClaude Opus 4.6が77.8とComposer 2の73.7を上回っています。Cursorは「すべての面で最強」とは主張しておらず、これは誠実な姿勢と言えます。

価格面では明確なアドバンテージがあります。競合のClaude Opus 4.6が入力100万トークンあたり5.00ドル・出力25.00ドル、GPT-5.4が2.50ドル・15.00ドルであるのに対し、Composer 2の標準版は0.50ドル・2.50ドルです。高速版でも1.50ドル・7.50ドルにとどまり、同等クラスのモデルと比較してもコスト競争力は高いと言えます。

一方で、Cursorが抱える構造的なリスクも見逃せません。同社はOpenAIやAnthropicのモデルを自社プラットフォームに組み込みながら、それら企業と直接競合するという複雑な立場にあります。報道によれば、消費者向けサブスクリプションはすでに赤字構造で、エンタープライズ契約が収益を支えている状況です。自社モデルへの移行は、こうした依存関係から脱却するための戦略的必然でもあります。

また、今回のモデルはコードデータのみで学習されたことが共同創業者のアマン・サンガーによって明言されています。「確定申告の手伝いも、詩を書くこともできない」という言葉は正直な自己評価であり、用途を絞り込むことで高いコストパフォーマンスを実現したアーキテクチャの判断でもあります。

長期的な視点では、Cursorが「モデルからIDE体験まで一貫して自社で最適化できるスタック」を持ち始めたことの意味は大きいと考えます。CursorBenchのスコアが38→44→61と急速に改善していることを踏まえると、次世代モデルではさらなる跳躍が期待されます。ただし、AnthropicのようなプレイヤーがClaude Codeなど自社製品への投資を積極的に続けているなか、開発者がIDE自体を必要とするかという根本的な問いに、Cursorはまだ答えを示せていません。

【追記(2026年3月24日)】Composer 2の発表後、X上のユーザー「Fynn」氏が「Composer 2は、中国のMoonshot AIが公開したオープンソースモデルKimi k2.5に強化学習(RL)を追加しただけだ」と指摘し、コード内のモデルIDを証拠として示しました。この投稿が拡散した結果、「自社開発モデル」として打ち出していたにもかかわらず、実際にはKimiをベースにしていたことに対する批判がCursorに向けて高まりました。また、アメリカのスタートアップであるCursorが、中国企業Moonshot AIのモデルを基盤にしていた点についても、「地政学的リスクや依存関係をどう説明するのか」という観点から議論が起きています。

こうした批判を受け、CursorのVP(開発教育担当)Lee RobinsonはX上で「オープンソースモデルをベースに開発をスタートしたのは事実」と認めたうえで、「最終モデルのコンピュートのうちベースモデル(Kimi)由来は約1/4に過ぎず、残る約3/4はCursor独自のトレーニングによるものであり、ベンチマーク性能はKimiとは大きく異なる」と説明しました。Moonshot AI(Kimiの公式アカウント)は「Fireworks AIを介した認可済みの商業パートナーシップのもとでの使用」と声明を出しており、ライセンス上の問題は双方とも否定しています。一方で共同創業者のAman Sangerは、「最初のブログ投稿でKimiをベースとしている点に言及しなかったのは失敗だった。次のモデルでは透明性を高める」と述べており、モデルの由来や開発プロセスをどこまで開示すべきかが、今後のAIスタートアップ全体にとっても重要な論点になっています。

本記事のタイトルおよび編集部解説には「自社開発」という表現がありますが、正確には「オープンソースモデルを起点に、独自の継続的事前学習と強化学習を大規模に施したモデル」です。モデルのベースやパートナー企業との関係について十分な文脈を示さないまま「自社開発」と表現したことは、読者に誤解を与えかねない不適切な記述でした。今後のAIスタートアップにとっても

・どのモデルやデータをベースにしているのか
・ どの部分が自社の付加価値なのか
・ その技術的・地政学的リスクをどう説明するのか

といった点を、初期の発表段階からできるだけ透明に開示していくことが信頼維持のうえで不可欠だと考えます。本件について誤解を招いた点をお詫びするとともに、表現の改善に努めてまいります。

参照:Cursor admits its new coding model was built on top of Moonshot AI’s Kimi — TechCrunch(2026-03-22)

【用語解説】

継続的事前学習(Continued Pretraining)
すでに学習済みのAIモデルに対して、特定の分野のデータを追加学習させる手法である。ゼロから学習し直すよりも効率的に、特定タスクへの適応力を高めることができる。

強化学習(Reinforcement Learning)
AIが試行錯誤を繰り返しながら「報酬」を最大化する方向に学習する手法である。

Long-horizonタスク
数十から数百もの連続したアクションを必要とする、長時間・多段階のコーディング作業を指す。

SWE-bench Multilingual
実際のGitHubのissueをAIが自動修正できるかを評価する、ソフトウェアエンジニアリング向けベンチマークである。複数のプログラミング言語に対応しており、コーディングAIの実務的な能力を測る指標として広く使われている。

Terminal-Bench 2.0
AIエージェントの能力を、ターミナル環境での実践的なタスク遂行を通じて評価するベンチマーク。採点にはHarborと呼ばれる評価フレームワークが使用されている。

CursorBench
Cursor社が独自に開発した内部ベンチマークである。コーディングタスクへの対応能力を総合的に評価するもので、Composer各世代の性能比較に使用されている。

【参考リンク】

Cursor(外部)
Anysphere社が運営するAIコードエディタ。Composer 2を含む独自モデルと外部モデルを統合したコーディング環境を提供している。

Anysphere(外部)
Cursorを開発・運営する企業。2025年11月時点の企業価値は約293億ドル。2026年3月時点では約500億ドルでの資金調達交渉中と報じられている。

Anthropic(外部)
Claude Opus 4.6やClaude Codeを提供するAI企業。コーディングAI市場でCursorと競合する立場にある。

OpenAI(外部)
GPT-5.4などのモデルを提供するAI企業。Terminal-Bench 2.0でComposer 2を上回るスコアを記録している。

Terminal Bench(外部)
Laude Institute系のGitHubで公開されているAIエージェント評価ベンチマークの公式サイト。リーダーボードや評価方法の詳細が公開されている。

【参考記事】

Cursor takes on OpenAI and Anthropic with Composer 2 — The Decoder(外部)
Claude Opus 4.6・GPT-5.4との価格・ベンチマーク比較を詳細な数値で整理。Cursorの構造的ビジネスリスクを深く分析している。

Cursor’s new coding model Composer 2 is here — VentureBeat(外部)
前世代Composer 1.5との価格比較を数値で提示。Composer 2が約86%のコスト削減を実現している点を詳報している。

Cursor launches Composer 2 model — SiliconAngle(外部)
日次アクティブユーザー数100万人超・企業価値293億ドルなどの事業規模データを交えつつ、資金調達への影響を論じている。

Composer 2 beats Opus 4.6 on coding benchmarks — The New Stack(外部)
self-summarization技術がComposer 2の性能向上の鍵であることを解説。コードに特化した学習戦略の合理性を論じている。

How Good is Cursor’s Composer 2? — Michael Spencer(Substack)(外部)
self-summarization強化学習の仕組みを詳説。コンパクションエラー50%削減・トークン効率約5倍改善というCursorの研究内容を紹介している。

【関連記事】

Anysphere、AIコーディングツールCursorに独自モデル「Composer」搭載
Cursor 2.0と同時に発表されたComposer初代の記事。今回のComposer 2に至る自社モデル開発の出発点を振り返ることができる。

Claude Codeが開発ワークフローを一変—アプリプレビューからPR自動マージまでデスクトップで完結可能に
Composerの競合にあたるAnthropicのClaude Codeの進化を報じた記事。AIコーディング市場の競争構図を立体的に理解できる。

AIは本当に速いのか?Cursor Pro/Claudeを使ったMETRの研究で開発者の生産性が19%低下
Cursorを使った実証研究を扱った記事。AIコーディングツールの実態と限界を論じており、Composer 2の評価を多角的に深める視点を提供する。

【編集部後記】

Cursorがモデルの自社開発に踏み切ったことで、「AIツールを選ぶ」という行為の意味が変わりつつあるように感じています。

性能だけでなく、そのモデルが誰の手で、どんな思想のもとに作られているかも、選択の基準になっていくのかもしれません。みなさんは、AIコーディングツールに何を求めていますか?

投稿者アバター
omote
デザイン、ライティング、Web制作を行っています。AI分野と、ワクワクするような進化を遂げるロボティクス分野について関心を持っています。AIについては私自身子を持つ親として、技術や芸術、または精神面におけるAIと人との共存について、読者の皆さんと共に学び、考えていけたらと思っています。