云栈社区»论坛 › 开源实战「 OpenSource 」 › 阿里与中山大学发布SWE-CI基准：75%的AI代理在长期代码维护中制 ...

发回帖发新帖

3577 积分	0 好友	475 主题

发消息

[Python] 阿里与中山大学发布SWE-CI基准：75%的AI代理在长期代码维护中制造技术债务

发表于 2026-3-18 06:55:50 | 查看: 581| 回复: 0

阿里与中山大学合作，评估AI代码维护能力的科幻概念图

最近，一篇由阿里巴巴集团与中山大学联合发表的AI编程相关研究，在社交平台X上引发了广泛讨论。

研究团队通过一场持续233天、消耗高达100亿token的大规模实验，对主流的18个AI智能体在真实代码库上的“耐力”进行了极限测试。实验结果指向一个令开发者五味杂陈的结论：当前大多数AI并非合格的代码维护者，而是在高效地“制造技术债务”。

一项在X平台获高赞的帖子，由微软前产品故事讲述者Priyanka Vergadia分享，总结了这一研究的核心发现：人工智能编程或许不会抢走开发者的工作，因为它正忙于编写那些需要人类在未来十年不停修复的“遗留代码”。

Priyanka Vergadia 关于AI编写遗留代码的推文截图

正如一些业内人士指出的，这项研究更深层的意义在于，它建立了一个真正有价值的“评分系统”，将评估重点从“一次性修复”转向了“长期可持续性”。

业内人士评论SWE-CI建立重要评分系统的推文截图

打破泡沫：一次性修复不等于真正的“编程”

这篇名为《SWE-CI: Evaluating Agent Capabilities in Maintaining Codebases via Continuous Integration》的论文，指出了一个普遍存在但长期被忽视的问题：如何评估AI在长期软件开发中的表现。

SWE-CI 论文标题页

目前，绝大多数AI 智能体在HumanEval或SWE-bench这类“一次性考试”中表现出色，能快速解决一个明确的Bug。然而，现实中的软件开发是动态演进的：今天修复Bug，明天需求变更，后天依赖库升级。

这种持续演进的过程，无法被静态、一次性的修复测试所刻画。

因此，阿里与中山大学的研究团队提出了一种全新的评估标准：衡量一个AI的能力，不应只看它能否修复眼前的Bug，而要看它能否在长达数月甚至半年的项目演进周期中，保持代码库的稳定，不引入新的缺陷。

SWE-CI：一场长达233天、消耗百亿token的“极限耐力赛”

为了真实测试AI代理的“抗压能力”，研究团队构建了一个全新的基准——SWE-CI。这是一个基于持续集成流程的代码仓库级评估基准，首次将AI编程评估从“一次性快照”转向“长期演化”。

SWE-CI包含100个源自真实项目的任务，每个任务都对应一个真实代码仓库中平均233天、包含71次连续提交的演进历史。你可以将其理解为一场对AI智能体极为残酷的“耐力赛”。

真实战场：任务时间跨度长，平均达233天，涉及71次连续提交。
模拟人类：AI需要像真实开发者一样，在持续集成的循环中，应对一轮又一轮的需求变更。
残酷规则：总计算消耗超过100亿Token。

SWE-CI 的快照式评估与进化式评估对比示意图

实验设置的核心细节如下：

每个SWE-CI任务都来自GitHub上68个真实的Python仓库（维护≥3年、≥500星、包含单元测试和依赖配置文件）。
任务定义为：让智能体驱动代码库从“基线提交”演进到“目标提交”。这个过程平均跨越233天、71次提交、至少500行源码变更（不含测试）。智能体在Docker隔离环境中，通过最多20轮迭代，逐步完成这些需求变更。

值得注意的是，实验采用了双Agent架构来模拟真实开发流程：

架构师Agent：负责分析失败的测试、定位根因，并输出高层次的需求文档。
程序员Agent：遵循测试驱动开发流程，实际修改代码。

整个过程模拟了真实的CI/CD流水线，每一次变更都会影响后续状态，前期决策的后果会逐步累积，这正是传统基准无法模拟的“长期记忆”与“技术债务放大器”。

相应的，评估指标也升级为两个核心维度：

零回归率：在任务演化过程中，最初通过的测试在后续变更后仍保持通过的比例。
EvoScore：一种加权平均指标，其公式为 EvoScore = Σ(i=1 to N) γ^i × a(ci) / Σ(i=1 to N) γ^i。其中γ＞1时，会对后期迭代赋予更高权重，强调长期稳定性；当γ=1时则退化为普通平均。

战况惨烈：75%的AI正在疯狂制造“技术债务”

实验结果令人印象深刻。即便在2026年，主流AI智能体的表现依然暴露出其在长期维护上的巨大短板。

首先，“零回归率”普遍惨不忍睹。在模拟长期开发的测试中，绝大多数大模型的“零回归率”竟然不到25%。这意味着，这些模型每进行四次代码修改，至少有三次会破坏原本正常的功能。

各大模型在SWE-CI基准上的零回归率排名条形图

其次，技术债务指数级累积。随着项目演进，大多数模型产生的技术债务呈指数级增长。前期看似高效的修改，可能在后期引发系统级的“雪崩”。

那么，在这场残酷的耐力赛中，谁是最后的赢家？

如果你关注AI编程领域，答案或许并不意外：Claude 4.5/4.6。它是唯一能在长周期维护中保持50%以上零回归率的选手，展现了强大的“架构师思维”和稳定性。

值得注意的是，国产大模型GLM-5的表现同样亮眼，在应对长期代码演进时稳居第一梯队。

各模型提供商在SWE-CI上的EvoScore随时间变化趋势图

研究发现：不同AI智能体呈现出鲜明的“人格”倾向

论文中还揭示了一个有趣的现象：不同模型厂商的智能体表现出显著的风格差异，而同一厂商下的模型则倾向一致。

“救火队长”型：如Kimi、GLM等模型，在修改代码时更为激进，追求立刻解决当下的问题，但可能较快耗尽代码库的长期演进空间。
“长线规划”型：如GPT、DeepSeek、MiniMax等模型，修改时更谨慎，会考虑代码结构对未来的影响，更具“架构师”潜质。
“全能稳健”型：如Claude、Doubao、Qwen等模型，无论在短期还是长期考量下，表现都较为均衡。其中Claude更是稳定性与能力上限结合得最好的选手。

模型EvoScore排名随γ值变化图，显示不同模型的长期与短期策略倾向