
站在竞争悬崖边的AI编程工具Cursor,刚刚正式发布了自家第二代编程专用大模型:Composer 2.0,并已在其IDE中上线。

在一项关键的编程基准测试Terminal-Bench 2.0上,Composer 2的成绩竟然反超了Claude的旗舰模型Opus 4.6,这无疑向外界展示了Cursor在核心技术上的突破。

要知道,在拥有自研的Composer模型之前,Cursor长期“外挂”Claude和Codex等外部人工智能模型。这虽然为其吸引了大量用户,但也让其核心能力备受质疑。
而这一次,Composer 2不仅实现了性能反超,在价格上更是拿出了“打一折”的杀手锏。Cursor公布的定价显示:Fast版本每百万输入token收费1.5美元,输出收费7.5美元,比上一代便宜约57%。
普通版的价格则更为激进:输入0.5美元,输出2.5美元。作为对比,Claude Opus 4.6的官方定价是输入5美元、输出25美元——刚好是Composer 2普通版的10倍。当然,Anthropic也指出,在结合缓存与批处理等优化机制后,实际成本可能大幅降低。
当下的AI竞争早已卷到“性价比”层面,而Composer 2.0在速度和成本两端,同时展现出了对Opus 4.6、GPT-5.4等老对手的优势。Cursor也毫不客气地将三者的对比数据直接摆上了台面。

网友实测:只有Composer 2写完应用能一次跑通
Cursor宣称,Composer 2在其评估的所有基准测试上都取得了大幅提升。除了Terminal-Bench 2.0,在衡量模型Debug能力的SWE-bench Multilingual(多语言版)上,Composer 2得分73.7%,与Claude Opus 4.6的77.83%(Anthropic数据)已相当接近。

仅在通用榜单上比拼似乎已无法满足Cursor,他们近期自建了一套名为CursorBench的基准,专门用于评估智能体(Agent)在真实任务中的执行水平。值得一提的是,CursorBench曾将在SWE-Bench上表现出色的Claude Sonnet 4.5的得分从77.2骤降至37.9。Composer 2大概率已经在这套更严苛的“自家考场”里经受了反复检验。

那么,抛开 Benchmark 分数,Composer 2 的实际“业务水平”究竟如何?一位开发者网友对 Composer 2、Opus 4.6 和 GPT-5.4 进行了一次同任务实测。
任务是用一套指定的技术栈(Better Auth, Vite, SQLite, Drizzle, TypeScript, React with Tanstack Start)生成一个X(原Twitter)的克隆应用,并允许模型调用浏览器自行测试。
结果显示,三者在“规划”(Plan)阶段耗时相近,均为5分钟左右。但进入执行阶段后,差距开始显现:只有Composer 2生成的应用能够直接运行,一次成功。而Opus 4.6和GPT-5.4生成的应用则卡在了CORS(跨域资源共享)问题上,需要额外调试才能运行。
更有意思的发现在于效率和成本:三者的代码结构和质量非常相似,但Composer 2仅用时5分钟,花费6.04美元;Opus 4.6耗时19分钟,花费10.43美元;GPT-5.4则耗时22分钟,花费14.15美元。

为什么说 Cursor 站在了悬崖边?
这并非因为其不赚钱。恰恰相反,据彭博社今年3月初的消息,Cursor在2025年的销售额从前一年的1.5亿美元飙升至约20亿美元,而公司员工仅300余人。此外,Cursor在去年11月完成了23亿美元的融资,投后估值约300亿美元,并且据传正在洽谈新一轮融资,估值可能达到500亿美元。
真正的危险在于,Cursor赖以崛起的那套逻辑正在被动摇。
过去,开发者需要一个强大的IDE来与AI协同编码。而现在,越来越多的开发者开始直接将任务交给Claude Code、Codex这类命令行智能体(CLI Agent),让它们自主完成编写、运行和调试的全过程。软件开发的范式正在从“AI辅助写代码”切换到“智能体自主完成任务”,代码编辑器不再是唯一的入口,甚至显得有些多余。
这对Cursor而言是致命的。它曾经最大的优势,是将Claude、Codex等顶级模型无缝集成到一个高效顺手的IDE环境中。但当模型厂商亲自下场打造自己的终端产品,直接拿走了用户入口,Cursor很容易从“超级入口”滑落为“中间层”。
更尴尬的是,其用户粘性很大程度上源于它接入了最强大的外部“大脑”。一旦这些“大脑”开始自己做IDE、CLI或智能体平台,Cursor的护城河便开始变浅——上游模型厂商向下侵蚀,下游开发者向外迁移,它被夹在了中间。
因此,Cursor的自救策略非常明确:
- 补足核心短板,研发自有模型。Composer 2的发布正是关键一步。
- 全面转向智能体(Agent)范式,将IDE从“以文件为中心”改造为“以任务为中心”,上线云端多智能体协作功能。
- 深耕企业市场。大公司迁移成本高、合同周期长、合规要求严,不会轻易切换工具。
- 降低对Anthropic和OpenAI的依赖。Cursor利用DeepSeek、Kimi、Qwen等开源实战模型进行二次训练,再通过自有数据和强化学习,将它们转化为更廉价、更高效的专用编码模型。
简而言之,Cursor现在不只在进行版本迭代,更是在与时间赛跑,重新书写自己的存在价值:在“编辑器可能失去中心地位”的时代,证明自己不仅仅是一个好用的“外壳”,而是一个真正拥有自主模型、先进系统和新型入口的AI编程平台。
参考链接:
你对AI编程工具的演进有什么看法?欢迎到云栈社区的开发者板块,与同行们一起探讨前沿技术趋势。