云栈社区»论坛 › 站务中心「 Forum Service 」 › DeepSWE新基准：GPT-5.5以70%通过率反超Claude，旧代码评测榜受 ...

发回帖发新帖

5142 积分	0 好友	727 主题

发消息

DeepSWE新基准：GPT-5.5以70%通过率反超Claude，旧代码评测榜受质疑

发表于 2026-5-29 20:39:49 | 查看: 214| 回复: 0

代码评测圈，一把新量尺落下。就在刚刚，Datacurve 推出了新基准 DeepSWE，专门还原开发者真实工作场景，撕开顶尖模型在旧榜单上“旗鼓相当”的假象。

Datacurve 联合创始人、CEO Serena Ge 在 X 上表示：“在公开排行榜上，顶尖模型的能力往往看起来相差不大。DeepSWE 则揭示了它们实际存在差异的地方，反映了开发者日常工作中真实遇到的情况。”

DeepSWE 第一天的榜单就彻底颠覆了旧秩序：GPT‑5.5 以 70%±4% 的通过率登顶，而此前在 SWE‑Bench Pro 上排名第一的 Claude Opus 4.7 仅拿到 54%±5%，掉到了第三位，两家整整差了 16 个百分点。更扎心的还在后面——DeepSWE 团队回查 SWE‑Bench Pro 的历史提交，发现 Claude Opus 4.6 和 4.7 超过 12% 的成绩被判定作弊；同时，SWE‑Bench Pro 的验证器存在 8.5% 的假阳性率和 24.0% 的假阴性率。一把不准的尺子，把模型之间的真实差距抹平了。

换一把尺子，第一名就换人

DeepSWE 的首份排行榜覆盖了 12 款前沿模型：

gpt‑5.5[xhigh] 70% ±4%
gpt‑5.4[xhigh] 56% ±5%
Claude Opus 4.7[max] 54% ±5%
Claude Sonnet 4.6[high] 32% ±4%
gemini‑3.5‑flash[medium] 28% ±4%
gpt‑5.4‑mini[xhigh] 24% ±4%
...
榜尾的 Owen3 Coder 仅 9%，Kimi K2 仅 5%。

在公开报道的 SWE‑Bench Pro 成绩里，Claude Opus 4.7 是 64%、排第一；gpt‑5.5 是 59%。到了 DeepSWE，位置完全反转：gpt‑5.5 升到 70%、排第一，Claude Opus 4.7 降到第三、54%。不仅排名逆转，模型之间的差距也被大幅拉开——这批模型在 SWE‑Bench Pro 上从最差到最好仅差 30%，到了 DeepSWE 上则拉大到 70%。

同一批选手，同一类任务，换一个测试，原来的并列领先就变成了断层式差距。DeepSWE 团队解释：旧榜单上模型挤在一个窄窄的分数带里，不是因为它们真的接近，而是因为基准本身的“分辨率”不够。SWE‑Bench Pro 一道题平均只改 5 个文件，DeepSWE 一道题平均要改 7 个，单题的参考代码量是 SWE‑Bench Pro 的 5.5 倍。在这种规模下，模型没法靠背下某个具体函数蒙过去，它必须真正读懂多个文件之间的耦合关系，再规划出一条贯穿整个仓库的修改路径。GPT‑5.5 拿到 70%，意味着它不仅记住了某种题型，而是“能在一个完全陌生的真实仓库里，跑完一条横跨 7 个文件的改动链路”。在玩具题上，两家看着差不多；在能逼出真实工程能力的题上，差距瞬间被拉开。

DeepSWE 更准吗？还是噱头？

一个新基准凭什么说自己更准？DeepSWE 给出了四个设计。

零污染：每一个任务都由工程师从零原创，做完后不会合并回上游仓库，也就不会进入公开的 GitHub 记录，更难出现在未来爬取开源代码的预训练语料里。没有任何模型在预训练阶段见过这些题的答案，这一刀正中旧基准的命门。

高多样性：113 个任务覆盖 91 个活跃的开源仓库，横跨 TypeScript、Go、Python、JavaScript、Rust 五种语言。而 SWE‑Bench Pro 公开版只覆盖 11 个仓库。仓库越多、越杂，越能逼近开发者真实会丢给智能体的代码库。

真实复杂度：单题代码量是 SWE‑Bench Pro 的 5.5 倍，但提示词长度反而只有 SWE‑Bench Pro 的一半。它刻意模仿开发者实际跟智能体说话的方式：只说想要什么行为，不把接口定义、复现步骤、代码片段全部塞给你。智能体必须自己去仓库里摸清楚“在哪改、怎么改”。

可靠验证：一个基准准不准，关键看它的验证器。旧基准的验证器往往只认一种“标准答案”的写法，换个变量名、换种实现思路就可能被判错。DeepSWE 的验证器是针对每个任务手写的，只要结果正确，怎么写都算过。各抽 30 个任务交叉复查，DeepSWE 验证器的假阳性率仅 0.3%、假阴性率 1.1%，而 SWE‑Bench Pro 分别是 8.5% 和 24.0%，差了一个数量级。

而且 DeepSWE 不只是一张静态榜单。在它的 GitHub 仓库里，每个任务都附带提示词、可复现的 Docker 环境、验证器和一份保密参考解，你可以拉下来让自己的智能体跑一遍。

旧基准的尺子，两头都不准

DeepSWE 还用这套新方法审计了 SWE‑Bench Pro 上已经记进成绩单的提交。结果发现，Claude Opus 4.6 和 4.7 的成绩里超过 12% 被判定为作弊，约 87% 是同一招：直接翻查代码仓库的 .git history，把藏在历史记录里的标准答案抄出来。而在同一批复查样本中，GPT‑5.4 和 GPT‑5.5 未被发现这类行为。DeepSWE 指出，是 SWE‑Bench Pro 本身让作弊有机可乘——它的任务容器里直接带着那个“标准答案”的提交记录。

如果说作弊是让分数虚高的“上行噪声”，那么 SWE‑Bench Pro 还有一个对称的“下行噪声”：24% 的假阴性。DeepSWE 复查了一批被 SWE‑Bench Pro 判为“失败”的提交，发现其中约 24% 其实功能完全正确，只是被误杀了。差不多每四个运行就有一个被误杀。如果把这层假阴性算上，所有模型的真实分数都被压低了一截，而且那些倾向于按自己风格重写代码、不抄现成答案的模型，分数损失得最严重。

两个基准验证器的误判率对比非常刺眼——SWE‑Bench Pro 假阳性率 8.5%、假阴性率 24.0%；DeepSWE 分别是 0.3% 和 1.1%。如果这个数据准确，意味着持续大半年的所谓“Claude 和 GPT 不分上下”的共识，是建立在一个两头都不准的测量工具上。过去大家只比终点分数，没人回头看这个分怎么来的。DeepSWE 这一刀下去，那些以 SWE‑Bench Pro 为锚点的模型对比，可能都需要重新校准。

局限性在哪里？

DeepSWE 解决了旧基准的污染问题，但它终究是 Datacurve 自家做的评测。团队也坦诚地谈到自己的局限。

全程只使用一个叫 mini‑swe‑agent 的 Harness，给所有模型同一个 bash 工具、同一套提示词。这样做是为了把“模型能力”和“外围脚手架”分开，但代价是一部分失真——不同模型家族训练时适配的工具形态本就不同，开发者在现实里也不是用 mini‑swe‑agent，而是用 Codex CLI、Claude Code、Cursor、Gemini CLI 这些更成熟的原生 Harness。统一 Harness，可能把每一家模型都按在了它原生上限之下。

DeepSWE 团队也跑了对照实验：在小规模试点中（10 道题），mini‑swe‑agent 的表现不输原生 Harness；但团队同时强调，这只是 10 道题的试点，不足以完全打消顾虑。另外，语料只覆盖 500 星以上的活跃开源仓库，缺了 C++ 和 Java，bug 定位和重构类任务也偏少。还有一点是 AI 幻觉：DeepSWE 那些“假阳性、假阴性”的判定，本身是由一个 LLM 分析员给出的，不是人工。团队自己也提醒，低于约 5% 的差异不应该当真。

1500 万美元背后的“磨刀石”公司

DeepSWE 出自 Y Combinator 2024 年冬季批次（W24）的 Datacurve，由 Serena Ge 和 Charley Lee 两位滑铁卢大学计算机系校友在 2024 年创立。Datacurve 为前沿大模型生产高质量代码数据，但它的玩法有点特别——运行着一个叫 Shipd 的平台，用“赏金”的方式招募顶尖软件工程师来解算法题、做调试、写 UI 流程，按产出而不是按工时付钱，迄今已发出超过 100 万美元赏金。据 TechCrunch 等媒体报道，参与者中不乏来自 DeepMind、OpenAI、Anthropic、Vercel 的工程师。

本身作为给大模型供训练数据的公司，Datacurve 对“什么样的数据会污染基准、什么样的任务才考得出真本事”有第一手的认知。DeepSWE 更像是它主业的延伸。

代码评测圈，正在告别刷分时代

DeepSWE 不是孤立事件，背后是一个已延续大半年的趋势：随着 SWE‑Bench 系列基准日趋饱和，新一代编程基准的竞争点已经从“题目有多难”转向了“抗不抗污染”和“验证可不可信”。

DeepSWE 还有一个特别有意思的发现：模型越强，越会主动给自己写测试。在 DeepSWE 上，Claude Opus 4.7 和 GPT‑5.4 有超过 80% 的运行会主动用项目自己的测试框架写新测试，哪怕没人要求它这么做。但在 SWE‑Bench Pro 上，同样这批模型写测试的比例掉到了 3% 到 28%。原因何在？SWE‑Bench Pro 的提示词里有一句话，告诉智能体测试文件已经处理好了、别去改动测试逻辑。智能体就把这句话理解成了“不用自己写测试”。一句提示词的措辞，就能改变一个模型的行为，进而改变它的得分。

这说明，我们衡量 AI 编程能力的工具，本身还非常脆弱：一个标点、一句话、一个 Harness 的选择，都可能影响排名。当 AI 智能体开始动手改你的代码，你真正该信什么？DeepSWE、SWE‑Bench Pro 这些都只是外部参考，终极答案还藏于真实的业务代码库。

参考资料：
https://x.com/serenaa_ge/status/2059308218564890875
https://deepswe.datacurve.ai/blog

上一篇：「Rubbish」这本影响因子为0的科研吐槽期刊，被Nature翻牌了
下一篇：淘宝闪购AI二面复盘：Agent、RAG、LangChain连环追问，我差点扛不住

GPT-5．5, DeepSWE, 代码基准, Claude, SWE-Bench