云栈社区»论坛 › 开发者广场「Dev Plaza」 › Cursor Composer 2 发布：性能反超Opus 4.6，成本直降90%，实测 ...

发回帖发新帖

5578 积分	0 好友	744 主题

发消息

Cursor Composer 2 发布：性能反超Opus 4.6，成本直降90%，实测一次跑通应用

发表于 2026-3-21 05:21:31 | 查看: 246| 回复: 0

AI模型拳击赛概念图，比喻Composer 2与Claude Opus的激烈竞争

站在竞争悬崖边的AI编程工具Cursor，刚刚正式发布了自家第二代编程专用大模型：Composer 2.0，并已在其IDE中上线。

Cursor IDE中Composer 2上线通知界面截图

在一项关键的编程基准测试Terminal-Bench 2.0上，Composer 2的成绩竟然反超了Claude的旗舰模型Opus 4.6，这无疑向外界展示了Cursor在核心技术上的突破。

Terminal-Bench 2.0基准测试得分对比图表

要知道，在拥有自研的Composer模型之前，Cursor长期“外挂”Claude和Codex等外部人工智能模型。这虽然为其吸引了大量用户，但也让其核心能力备受质疑。

而这一次，Composer 2不仅实现了性能反超，在价格上更是拿出了“打一折”的杀手锏。Cursor公布的定价显示：Fast版本每百万输入token收费1.5美元，输出收费7.5美元，比上一代便宜约57%。

普通版的价格则更为激进：输入0.5美元，输出2.5美元。作为对比，Claude Opus 4.6的官方定价是输入5美元、输出25美元——刚好是Composer 2普通版的10倍。当然，Anthropic也指出，在结合缓存与批处理等优化机制后，实际成本可能大幅降低。

当下的AI竞争早已卷到“性价比”层面，而Composer 2.0在速度和成本两端，同时展现出了对Opus 4.6、GPT-5.4等老对手的优势。Cursor也毫不客气地将三者的对比数据直接摆上了台面。

Composer 2与竞品在速度和价格上的对比图表

网友实测：只有Composer 2写完应用能一次跑通

Cursor宣称，Composer 2在其评估的所有基准测试上都取得了大幅提升。除了Terminal-Bench 2.0，在衡量模型Debug能力的SWE-bench Multilingual（多语言版）上，Composer 2得分73.7%，与Claude Opus 4.6的77.83%（Anthropic数据）已相当接近。

Composer系列模型在多基准测试上的得分对比表格

仅在通用榜单上比拼似乎已无法满足Cursor，他们近期自建了一套名为CursorBench的基准，专门用于评估智能体（Agent）在真实任务中的执行水平。值得一提的是，CursorBench曾将在SWE-Bench上表现出色的Claude Sonnet 4.5的得分从77.2骤降至37.9。Composer 2大概率已经在这套更严苛的“自家考场”里经受了反复检验。

CursorBench基准介绍页面截图

那么，抛开 Benchmark 分数，Composer 2 的实际“业务水平”究竟如何？一位开发者网友对 Composer 2、Opus 4.6 和 GPT-5.4 进行了一次同任务实测。

任务是用一套指定的技术栈（Better Auth, Vite, SQLite, Drizzle, TypeScript, React with Tanstack Start）生成一个X（原Twitter）的克隆应用，并允许模型调用浏览器自行测试。

结果显示，三者在“规划”（Plan）阶段耗时相近，均为5分钟左右。但进入执行阶段后，差距开始显现：只有Composer 2生成的应用能够直接运行，一次成功。而Opus 4.6和GPT-5.4生成的应用则卡在了CORS（跨域资源共享）问题上，需要额外调试才能运行。

更有意思的发现在于效率和成本：三者的代码结构和质量非常相似，但Composer 2仅用时5分钟，花费6.04美元；Opus 4.6耗时19分钟，花费10.43美元；GPT-5.4则耗时22分钟，花费14.15美元。

开发者Wes Bos在X上发布的实测结果对比截图

为什么说 Cursor 站在了悬崖边？

这并非因为其不赚钱。恰恰相反，据彭博社今年3月初的消息，Cursor在2025年的销售额从前一年的1.5亿美元飙升至约20亿美元，而公司员工仅300余人。此外，Cursor在去年11月完成了23亿美元的融资，投后估值约300亿美元，并且据传正在洽谈新一轮融资，估值可能达到500亿美元。

真正的危险在于，Cursor赖以崛起的那套逻辑正在被动摇。

过去，开发者需要一个强大的IDE来与AI协同编码。而现在，越来越多的开发者开始直接将任务交给Claude Code、Codex这类命令行智能体（CLI Agent），让它们自主完成编写、运行和调试的全过程。软件开发的范式正在从“AI辅助写代码”切换到“智能体自主完成任务”，代码编辑器不再是唯一的入口，甚至显得有些多余。

这对Cursor而言是致命的。它曾经最大的优势，是将Claude、Codex等顶级模型无缝集成到一个高效顺手的IDE环境中。但当模型厂商亲自下场打造自己的终端产品，直接拿走了用户入口，Cursor很容易从“超级入口”滑落为“中间层”。

更尴尬的是，其用户粘性很大程度上源于它接入了最强大的外部“大脑”。一旦这些“大脑”开始自己做IDE、CLI或智能体平台，Cursor的护城河便开始变浅——上游模型厂商向下侵蚀，下游开发者向外迁移，它被夹在了中间。

因此，Cursor的自救策略非常明确：

补足核心短板，研发自有模型。Composer 2的发布正是关键一步。
全面转向智能体（Agent）范式，将IDE从“以文件为中心”改造为“以任务为中心”，上线云端多智能体协作功能。
深耕企业市场。大公司迁移成本高、合同周期长、合规要求严，不会轻易切换工具。
降低对Anthropic和OpenAI的依赖。Cursor利用DeepSeek、Kimi、Qwen等开源实战模型进行二次训练，再通过自有数据和强化学习，将它们转化为更廉价、更高效的专用编码模型。

简而言之，Cursor现在不只在进行版本迭代，更是在与时间赛跑，重新书写自己的存在价值：在“编辑器可能失去中心地位”的时代，证明自己不仅仅是一个好用的“外壳”，而是一个真正拥有自主模型、先进系统和新型入口的AI编程平台。

参考链接：

你对AI编程工具的演进有什么看法？欢迎到云栈社区的开发者板块，与同行们一起探讨前沿技术趋势。

上一篇：特斯拉Optimus机器人供应链解析：谁在为其制造关节与执行器？
下一篇：家庭AI入口新选择：剖析中国移动灵犀屏的生态破局之道

Cursor, Composer, Claude, GPT, AI编程

Cursor Composer 2 发布：性能反超Opus 4.6，成本直降90%，实测一次跑通应用

网友实测：只有Composer 2写完应用能一次跑通

为什么说 Cursor 站在了悬崖边？

相关帖子

浏览过的版块