最新消息,AI编程工具Cursor发布了其Composer 2模型的技术报告,这份报告被外界视为对近期“套壳”争议的正式回应。报告详细阐述了他们如何基于出色的开源基础模型,通过一系列技术手段进行定制化微调,从而打造出专为代码生成优化的智能体。

报告开篇,Cursor首先明确了其选择的基座模型:在评估了包括GLM-5、DeepSeek V3.2在内的多款潜在开源模型后,最终选定了Kimi K2.5。理由不仅是其综合能力突出,也考虑到了其在自研基础设施中的执行效率等附加因素。

这一“署名”行为与早前引发争议的态度形成对比,但网友的调侃并未停止。

Cursor Composer 2的训练方法论
选定基座模型后,Composer 2的打造主要经过了两步独立的训练流程:持续预训练(Continued Pretraining)和异步强化学习(Asynchronous RL)。
1. 持续预训练:夯实代码基础
这一步的目的是提升模型在编程领域的基础知识和潜在能力,为后续的智能体训练打下根基。训练主要分为三个子阶段:
- 将大部分计算资源投入到32k token序列长度的训练中。
- 进行短期的长上下文扩展训练,将序列长度提升至256k。
- 通过小样本指令调优(SFT)完成对特定代码任务的适配。
此外,为了提升线上推理速度,模型还新增了多token预测(MTP)层,并结合了投机解码技术和自蒸馏策略来保证收敛效率。
训练数据显示,模型在自研代码库上的损失值呈对数线性下降,且代码库的困惑度(Perplexity)与下游的强化学习性能呈正相关,证明了预训练的有效性。

2. 异步强化学习:模拟真实编程场景
强化学习训练环境高度模拟真实的Cursor对话场景,任务集涵盖了各类软件工程核心问题。训练框架基于大规模策略梯度实现,并采用了单指令多样本的策略梯度算法以保持稳定性。
研究中的一个关键发现是,最终模型的平均性能和最佳采样性能(Best-of-K)实现了同步提升。这证明RL训练不仅是在重新加权推理路径,更实质性地扩展了模型能够覆盖的正确解决方案的范围。

除了核心的任务完成奖励,Composer 2还引入了一系列辅助奖励机制,包括针对代码风格、交互表达的正向奖励,以及针对不当工具调用的产品级惩罚,并根据训练中涌现的行为动态调整这些规则。
自研评估基准:CursorBench
为了更准确地评估面向智能体的代码模型,Cursor端出了一套自研的内部评估集——CursorBench。与SWE-bench等公开基准相比,CursorBench的任务均来自真实的智能体使用场景,其评估维度也更为全面,不再仅以功能正确性为标准,还会考量代码质量、执行效率、智能体交互等多个方面。
数据显示,CursorBench中的任务代码修改量更大(中位数达181行),而指令提示却更简洁(中位数仅390字符),这更贴近开发者的实际使用习惯。

在具体的测试结果上,Composer 2在CursorBench-3中的准确率达到了61.3%,较其1.5版本提升了37%。与作为基座的Kimi K2.5相比,在经过上述定制化训练后,其在多项基准上的准确率也实现了大幅度跃升。

报告总结称,Composer 2在成本层面实现了帕累托最优,其推理成本与更小的模型相当,而精度却媲美更大的前沿模型。这无疑展示了基于强大开源基座模型进行高效微调的价值。
Kimi的视野:规模化、架构与开源的未来
就在Cursor发布报告的同时,Kimi的创始人杨植麟在中关村论坛的演讲中,分享了对大模型发展的最新思考。他认为,大模型的本质是将能源转化为智能,而核心在于规模化(Scaling)。

Kimi的规模化策略聚焦于三点:
- 提升Token效率:用更少的数据学到更多的智能。
- 扩展上下文长度:通过如Kimi Linear等新网络架构从根本上提升长程逻辑处理能力。
- 引入Agent集群:通过多智能体协作解决复杂问题,实现规模化输入、输出、执行与编排。

同时,杨植麟强调了底层架构创新的重要性,例如Kimi最新开源的注意力残差(Attention Residuals)架构,它让模型能够更高效地利用所有层的信息。

对于开源,杨植麟表示,以Kimi K2.5为代表的开源模型正在成为行业新标准,被全球芯片厂商和研究机构广泛采用。开源的目标是降低智能获取的门槛,最终形成一个推动AI发展的开源生态系统。
最后,他断言大模型训练已进入第三阶段:从早期依赖天然数据,到当前注重人工筛选高质量任务与大规模强化学习系统,并正在迈向由AI主导研发的未来——AI将自动合成任务、构建训练环境乃至探索新架构。

从Cursor的技术报告到杨植麟的行业展望,我们可以看到当前AI发展的一个清晰脉络:强大的开源基座模型为创新提供了坚实基础,而针对性的微调与训练技术则能将其能力精准导向特定领域,创造出实用价值。这种“站在巨人肩膀上”的迭代模式,或许正是推动AI快速普及与应用的关键。对这类技术实践与前沿动态感兴趣的朋友,欢迎来云栈社区交流讨论。
参考链接:
[1] https://x.com/cursor_ai/status/2036566134468542651
[2] https://cursor.com/resources/Composer2.pdf
[3] https://mp.weixin.qq.com/s?__biz=MzkzMTY4NTIyNA==&mid=2247484111&idx=1&sn=f63b3cf375724ef3e281523f04d121b9&scene=21#wechat_redirect