找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3635

积分

0

好友

479

主题
发表于 1 小时前 | 查看: 6| 回复: 0

过去半年,AI 编程 Agent 的榜单几乎每天都在刷新:今天是 Claude Code 独领风骚,明天 Cursor 就完成反超,后天 OpenAI Codex 又杀了回来。
那么,究竟谁才是最强的 AI 编程 Agent?

Artificial Analysis 近期公布了一份横向评测报告。不同于单纯比拼分数的榜单,他们从性能、Token 消耗、成本、执行时间四个维度,对 Claude Code、Cursor CLI、OpenAI Codex、Google Gemini CLI 等主流 Agent 做了全面测评。

AI编程Agent生态概览

AI 制作的视频概要,可参考:不写一行代码,Claude Code/Codex 也能出专业视频~

评测体系由三项基准组成:

  • 模拟真实 Bug 修复的 SWE-Bench-Pro-Hard-AA
  • 考察终端工具链使用的 Terminal-Bench v2
  • 测试代码库理解能力的 SWE-Atlas-QnA

1、综合排名

下面是全部 Agent 的综合指数排名,差距并不大,第一名和第三名只差 1 分——三家几乎平手。
继续卷性能分数的意义正在快速递减,真正的竞争已转移到成本、速度和生态上。

编程Agent综合指数排名

第一名 Cursor CLI + Opus 4.7 以 61 分 领先,但 Codex(GPT-5.5)和 Claude Code(Opus 4.7)均为 60 分,头部格局已经内卷到毫厘之差。

不同配置下的得分详情

把 Claude Code 底层从 Sonnet 4.6 升级到 Opus 4.7,分数从 49 跳到 60,直接拉升 11 分。
纠结用哪个客户端,不如先想清楚用哪个模型。

2、Token 消耗

Token 用量直接影响成本与速度,绝大多数消耗来自缓存命中(这部分会显著压低实际费用)。

各模型Token消耗对比

最耗 Token 的 Claude Code + GLM-5.1 达到 4.8M / 任务,是 Cursor CLI + Opus 4.7(1.5M)的 3 倍多
在分数相近的情况下,选对配置,成本可以差出一个量级。

Token消耗结构详情

3、每任务成本

最便宜的 Cursor CLI + Composer 2 仅需 $0.07 / 任务,而最贵的 Claude Code + GLM-5.1 高达 $2.26,相差整整 32 倍

每任务成本对比

Claude Code + DeepSeek V4 Pro 用 $0.35 拿到 50 分,而 Codex + GPT-5.5 花了 $2.21 才拿到 60 分——前者只花了六分之一的钱,达到了 83% 的性能。
低成本真的可以不低分。

成本数值详览

4、执行时间

最快的 Claude Code + Opus 4.7(Anthropic 直连)仅需 5.8 分钟 / 任务,综合指数同时达到 60 分——又快又准。

任务执行时间对比

而 Claude Code + Kimi K2.6 需要 41.5 分钟,是前者的 7 倍多,且分数同样是 50 分,性价比明显吃亏。
这背后很可能是推理调用链路较长、API 响应延迟偏高所致。
对于高频迭代场景,等待成本不可忽视。

执行时间详览


这次评测最令人惊喜的发现:DeepSeek V4 Pro、Kimi K2.6、GLM-5.1 全部登上了榜单,它们以 Claude Code 为框架底座,在真实软件工程任务上展现出了实战级别的能力。

国产模型评分卡片

DeepSeek V4 Pro 用 $0.35 / 任务拿到 50 分,相比 Opus 4.7 方案节省近四分之三费用,性能损耗仅约 17%,在预算敏感的企业或高频调用场景下,这个组合极具竞争力。

现在 AI 编程的头部已内卷到极致,前三名差距只有 1 分,继续卷综合指数意义不大,未来的分水岭也许在成本效率与延迟。

国产模型作为底座潜力可期,但代价不低:Kimi K2.6 和 GLM-5.1 作为 Claude Code 底座,分数达 50-53,不算差——但 Token 消耗最高、耗时最长,实际使用体验需谨慎权衡。

DeepSeek V4 Pro 是最值得关注的性价比选项:$0.35 / 任务,综合指数 50 分——成本只有 Opus 4.7 的三分之一,性能进入第二梯队。


本次评测数据来源于 Artificial Analysis,更多 AI 编程工具测评与深度解析,欢迎访问 云栈社区

参考:https://artificialanalysis.ai/agents/coding-agents




上一篇:Nature:MIT用消费级SPAD传感器实现非视距成像,成本不到100美元
下一篇:告别Linux旧印象:安装、软件、驱动与日常使用4大误区解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-25 06:31 , Processed in 0.798473 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表