一言で言うと

Cursor は新AI コーディングモデル「Composer 2.5」をリリースしました。Anthropic の Opus 4.7・OpenAI の GPT-5.5 と同等のベンチマーク(SWE-Bench で 79.8%)を達成しながら、価格は約 5~10 分の 1($0.50/$2.50 per million tokens)。開発者がより低コストで高性能モデルにアクセスできるマイルストーンです。

Composer 2.5 のスペック

ベンチマーク性能

Composer 2.5 は複数の難度の高いベンチマークで競合モデルと同等かそれ以上の結果を示しています:

ベンチマークComposer 2.5参考値
SWE-Bench Multilingual79.8%Opus 4.7・GPT-5.5 レベル
CursorBench v3.163.2%開発タスク特化評価

特に SWE-Bench(Software Engineering ベンチマーク)での 79.8% は、実務的なコード生成能力を示す重要な指標です。

価格構造

Composer 2.5 の最大の競争力は大幅なコスト削減にあります:

  • スタンダード版:入力 $0.50、出力 $2.50 per million tokens
  • 高速版:入力 $3.00、出力 $15.00 per million tokens

比較対象として、Opus 4.7(Claude API)や GPT-4o との価格差は約 5~10 倍。開発チームが頻繁にモデルを呼び出すワークフローでは、月間コストで大きな差が生じます。

技術的な背景

Kimi K2.5 を基盤に

Composer 2.5 は中国の Moonshot(月之暗面)が開発したオープンソースモデル Kimi K2.5 をベースに構築されています。これにより:

  • 多言語対応:中国語・日本語を含む複数言語での自然なコード生成
  • 開発時間の短縮:既存の成熟した基盤モデルを活用した効率的な開発
  • オープンエコシステムの活用:オープンソース技術による信頼性向上

訓練規模の大幅拡大

Composer 2.5 は前バージョン比で:

  • 合成タスク 25 倍増:25 times more synthetic tasks で、より多様なコード生成パターンを学習
  • 訓練リソースの 85% を強化学習に投資:85 percent of compute budget を追加訓練と RLHF(人的フィードバックに基づく強化学習)に配分

この投資により、単なる規模拡大でなく、実務的で高品質なコード生成が実現されています。

開発者にとっての意味

導入判断のポイント

Composer 2.5 が活躍するシーン:

  1. 月間トークン消費量が多いプロジェクト

    • 従量課金モデルでコスト削減効果が大きい
    • スタートアップ・個人開発者にとって敷居が低くなる
  2. SWE-Bench で 80% 近い性能があれば十分なタスク

    • バグ修正、ユニットテスト生成、ドキュメント更新
    • 複雑なアーキテクチャ設計は Opus 4.7 の方が確実
  3. 多言語コード対応が必要なプロジェクト

    • Kimi K2.5 の多言語性能を活かしたユースケース
    • アジア圏での開発チーム

注意点

  • 高速版の価格:$3.00/$15.00 は Opus 4.7 と同等レベルのため、応答時間の要件がなければスタンダード版推奨
  • 継続的な検証:ベンチマークと実務での性能にはギャップがある可能性。導入前に pilot 検証を推奨

市場への波及効果

AI コーディング業界の競争激化

Cursor Composer 2.5 のリリースは、OpenAI と Anthropic を中心としたモデル市場に新たな競争軸をもたらします:

  1. 価格競争の加速:従来は規模で有利だった大手が、コストを武器にした新興企業に対抗を迫られる
  2. オープンソース活用の台頭:Kimi K2.5 のような優良オープンソースモデルが、商用製品の基盤として機能
  3. 特化モデル戦略:Cursor のようにコーディング特化で深く最適化するアプローチの有効性

Cursor の次の動き

THE DECODER の報道では、Cursor が SpaceX・xAI と協力し、さらに大規模な後続モデル開発を進めていることが明かされています。これは単なるモデル更新でなく、AI インフラ企業との協業による長期的な競争力強化を示唆しています。

読者への最後のひとこと

Composer 2.5 は「高性能=高コスト」という従来の仮定を破る事例です。ベンチマーク性能の透明性と価格の低廉さが両立するようになれば、開発チームの AI ツール選択基準が大きく変わる。自社プロジェクトの要件に照らして、検討する価値があります。