云栈社区»论坛 › 回收站「 Recycle Bin 」 › 基于Kimi K2.5微调：Cursor Composer 2技术报告详解与对比 ...

发回帖发新帖

4693 积分	0 好友	610 主题

发消息

基于Kimi K2.5微调：Cursor Composer 2技术报告详解与对比

发表于 2026-3-28 07:04:44 | 查看: 80| 回复: 0

最新消息，AI编程工具Cursor发布了其Composer 2模型的技术报告，这份报告被外界视为对近期“套壳”争议的正式回应。报告详细阐述了他们如何基于出色的开源基础模型，通过一系列技术手段进行定制化微调，从而打造出专为代码生成优化的智能体。

一只表情夸张的橘猫对着镜头，配文“拿来吧你！”

报告开篇，Cursor首先明确了其选择的基座模型：在评估了包括GLM-5、DeepSeek V3.2在内的多款潜在开源模型后，最终选定了Kimi K2.5。理由不仅是其综合能力突出，也考虑到了其在自研基础设施中的执行效率等附加因素。

Cursor官方推文截图，感谢Kimi K2.5等项目

这一“署名”行为与早前引发争议的态度形成对比，但网友的调侃并未停止。

网友讽刺“三步训练法”的推文截图

Cursor Composer 2的训练方法论

选定基座模型后，Composer 2的打造主要经过了两步独立的训练流程：持续预训练（Continued Pretraining）和异步强化学习（Asynchronous RL）。

1. 持续预训练：夯实代码基础

这一步的目的是提升模型在编程领域的基础知识和潜在能力，为后续的智能体训练打下根基。训练主要分为三个子阶段：

将大部分计算资源投入到32k token序列长度的训练中。
进行短期的长上下文扩展训练，将序列长度提升至256k。
通过小样本指令调优（SFT）完成对特定代码任务的适配。

此外，为了提升线上推理速度，模型还新增了多token预测（MTP）层，并结合了投机解码技术和自蒸馏策略来保证收敛效率。

训练数据显示，模型在自研代码库上的损失值呈对数线性下降，且代码库的困惑度（Perplexity）与下游的强化学习性能呈正相关，证明了预训练的有效性。

展示模型困惑度与RL性能关系、持续预训练损失下降的图表

2. 异步强化学习：模拟真实编程场景

强化学习训练环境高度模拟真实的Cursor对话场景，任务集涵盖了各类软件工程核心问题。训练框架基于大规模策略梯度实现，并采用了单指令多样本的策略梯度算法以保持稳定性。

研究中的一个关键发现是，最终模型的平均性能和最佳采样性能（Best-of-K）实现了同步提升。这证明RL训练不仅是在重新加权推理路径，更实质性地扩展了模型能够覆盖的正确解决方案的范围。

展示Eval Set Reward和CursorBench Score随训练步骤提升的图表

除了核心的任务完成奖励，Composer 2还引入了一系列辅助奖励机制，包括针对代码风格、交互表达的正向奖励，以及针对不当工具调用的产品级惩罚，并根据训练中涌现的行为动态调整这些规则。

自研评估基准：CursorBench

为了更准确地评估面向智能体的代码模型，Cursor端出了一套自研的内部评估集——CursorBench。与SWE-bench等公开基准相比，CursorBench的任务均来自真实的智能体使用场景，其评估维度也更为全面，不再仅以功能正确性为标准，还会考量代码质量、执行效率、智能体交互等多个方面。

数据显示，CursorBench中的任务代码修改量更大（中位数达181行），而指令提示却更简洁（中位数仅390字符），这更贴近开发者的实际使用习惯。

对比不同基准测试中代码修改行数的箱线图

在具体的测试结果上，Composer 2在CursorBench-3中的准确率达到了61.3%，较其1.5版本提升了37%。与作为基座的Kimi K2.5相比，在经过上述定制化训练后，其在多项基准上的准确率也实现了大幅度跃升。

Composer 2与Kimi K2.5、Claude、GPT等模型在多基准上的性能对比表格

报告总结称，Composer 2在成本层面实现了帕累托最优，其推理成本与更小的模型相当，而精度却媲美更大的前沿模型。这无疑展示了基于强大开源基座模型进行高效微调的价值。

Kimi的视野：规模化、架构与开源的未来

就在Cursor发布报告的同时，Kimi的创始人杨植麟在中关村论坛的演讲中，分享了对大模型发展的最新思考。他认为，大模型的本质是将能源转化为智能，而核心在于规模化（Scaling）。

阐述Kimi在Token效率、长上下文、Agent集群三方面Scaling策略的图示

Kimi的规模化策略聚焦于三点：

提升Token效率：用更少的数据学到更多的智能。
扩展上下文长度：通过如Kimi Linear等新网络架构从根本上提升长程逻辑处理能力。
引入Agent集群：通过多智能体协作解决复杂问题，实现规模化输入、输出、执行与编排。

解释Kimi K2.5 Agent集群四大能力的图示

同时，杨植麟强调了底层架构创新的重要性，例如Kimi最新开源的注意力残差（Attention Residuals）架构，它让模型能够更高效地利用所有层的信息。

讲解Kimi注意力残差技术原理的架构图示

对于开源，杨植麟表示，以Kimi K2.5为代表的开源模型正在成为行业新标准，被全球芯片厂商和研究机构广泛采用。开源的目标是降低智能获取的门槛，最终形成一个推动AI发展的开源生态系统。

最后，他断言大模型训练已进入第三阶段：从早期依赖天然数据，到当前注重人工筛选高质量任务与大规模强化学习系统，并正在迈向由AI主导研发的未来——AI将自动合成任务、构建训练环境乃至探索新架构。

描绘大模型训练三阶段发展的图示

从Cursor的技术报告到杨植麟的行业展望，我们可以看到当前AI发展的一个清晰脉络：强大的开源基座模型为创新提供了坚实基础，而针对性的微调与训练技术则能将其能力精准导向特定领域，创造出实用价值。这种“站在巨人肩膀上”的迭代模式，或许正是推动AI快速普及与应用的关键。对这类技术实践与前沿动态感兴趣的朋友，欢迎来云栈社区交流讨论。

参考链接：
[1] https://x.com/cursor_ai/status/2036566134468542651
[2] https://cursor.com/resources/Composer2.pdf
[3] https://mp.weixin.qq.com/s?__biz=MzkzMTY4NTIyNA==&mid=2247484111&idx=1&sn=f63b3cf375724ef3e281523f04d121b9&scene=21#wechat_redirect

上一篇：高并发场景下，Go + PostgreSQL + sqlc 零 ORM 架构的工程实践
下一篇：Java 8 Collectors.toMap 使用详解：告别转换报错，覆盖三种重载与实战场景

Kimi, Cursor, 模型微调, 强化学习, 代码生成