Bug1024

5622 积分	0 好友	762 主题

发消息

AI代理成功率仅24%？APEX-Agents基准揭示企业应用瓶颈

发表于 2026-2-12 10:13:58 | 查看: 187| 回复: 0

程序错误与调试的科技感概念图

人工智能代理（AI Agent）正在快速走出演示阶段，进入企业实际试点。未来，这些代理将被嵌入核心业务流程，事实上，已有专业人员开始使用它们处理财务分析、文档审查乃至内容创作等任务。但随着这类“智能体”应用日益增多，一个根本问题逐渐凸显：我们该如何客观、量化地评估一个 AI 代理是否真正有效？

近期一项名为 APEX-Agents（AI生产力指数）的基准研究试图回答这个全球CIO和COO们都在关注的问题。

APEX-Agents基准测试论文摘要与模型性能对比

这项研究基于投资银行分析师、管理顾问和公司律师设计的真实工作任务，旨在评估人工智能代理是否能应对知识密集型行业中典型的、跨应用、长周期的复杂任务。

AI 代理表现究竟如何？

答案可能让人有些意外。在“首次尝试即成功”（Pass@1）的严格标准下，表现最佳的AI代理成功率仅为 24%。这说明，尽管AI代理并非毫无用处，但这一数据迫使我们重新思考其真正的能力边界与高效应用方式。

那么，这24%的成功率究竟意味着什么？当前阶段的AI代理能胜任哪些企业级任务？我们不妨深入解读这份报告。

将 AI 代理置于真实业务环境中测试

APEX-Agents 生产力指数包含多达480个任务，分布在投行、咨询和法务三大领域的33个“虚拟工作场景”中。每个场景都配备了约166份文件，并开放了对办公工具的访问权限，包括文档、电子表格、演示文稿、PDF、电子邮件、日历以及代码执行环境。

为了确保测试场景的真实性，一家名为 Mercor 的AI招聘公司调研了227位相关领域专家，以了解他们的日常工作流程，并据此设计研究中的场景与任务。参与者包括58名金融分析师、77名管理顾问和92名律师，平均工作经验达到10.8年。这些典型任务通常需要熟练员工花费1-2小时完成，而研究的目标正是评估AI代理能否达到初级或中级专业人员的水平。

Mercor 的CEO Brandon Foody 表示：“我们想评估的是，当今的AI代理能否完成具有实际经济价值的任务。它们能否与团队协作、在真实的软件工具中工作，并交付客户可用的成果？结果显示，即便是最优秀的模型，在面对复杂、真实的任务时，也远未达到可投入生产的标准。”

怎样的表现才算“足够好”？

在测试中，表现最优的模型 Pass@1 得分是24%，这意味着平均每尝试四次，只有一次能完全符合任务的所有要求。排名第二的模型得分为23%，其余模型则集中在18%到20%之间。一个值得注意的发现是，开源模型的表现显著落后，成功率仅在5%以下。

不同AI模型在三大职业场景下的APEX-Agents性能对比

常见 AI 代理模型的成功率（来源：Mercor）

这里的 Pass@1 标准非常严苛。每个任务都根据明确的评分规则进行评估，哪怕缺失或错误执行了其中一个关键步骤，整个任务就会被判为失败。这真实地反映了客户场景中“部分正确等于错误”的现实。

如果允许 AI 代理进行多次尝试（例如每个任务试8次），其表现会有所改善。在这种设定下，最佳代理至少成功完成一次任务的概率提升至36%-40%。这一差距揭示出，AI代理具备相应的能力，但在执行的稳定性和一致性上存在明显短板。

一致性仍然是最大的挑战。当要求AI代理在全部八次尝试中都必须成功时，性能急剧下降，最佳模型也仅能达到13.4%。这清楚地表明，当前的AI代理还无法在脱离人类监督的情况下独立、可靠地完成任务。

APEX-Agents 的另一项重要洞察是：失败不等于无用。即使任务未能被完全正确地完成，代理往往也能执行其中的一部分，从而获得一定的“部分分数”。平均任务得分数据显示，表现最好的代理能达到40%左右，这说明它们仍然能够产出一些可用的中间成果。

对于 AI 从业者和企业技术负责人而言，这意味着一个实用的思路：即便代理不能独立交付最终成果，它们也能显著减轻人工负担、加速工作流程，并为人类留出关键的验证和决策时间。

代理的瓶颈在于“执行”，而非“思考”

研究发现，AI代理失败的主要原因并非缺乏领域知识或逻辑推理能力，而更多出在具体执行与工具协作的环节。常见问题包括：

步骤冗余：经常超出基准设定的250步限制，显示出规划效率低下或陷入循环。
文件操作能力弱：在需要创建、编辑文件的任务上表现不佳。
工具调用低效：调用大量工具却未能有效收敛到最终解决方案。

研究还指出，使用更多Token和执行步骤的代理，反而更容易因超时而失败。这表明，单纯增加计算量并不等于更好的结果。成功的执行往往步骤更简洁，这要求对代理的执行策略进行严格控制。

对于企业应用来说，真正的瓶颈在于代理在真实业务系统和文件上执行长流程、多步骤操作的能力。

现阶段，AI代理能做什么？

研究显示，大多数AI代理更适合处理明确、聚焦的任务环节，而非独立负责端到端的完整流程。它们在以下方面表现尚可：

数据提取与格式转换。
初步的数据分析与信息摘要。
在清晰指令下更新模型或文档。
探索多种解决方案路径并进行重试。

但在以下方面，它们依然面临挑战：

在没有监督的情况下输出可直接交付的完整成果。
在多步骤、长流程任务中保持稳定、一致的表现。
可靠地进行复杂的文件创建与编辑操作。

因此，对于早期采用者而言，更现实的策略是将AI代理定位为 “人主导”的辅助工具 ，而非期望其完全自主运行。

重新审视AI代理的“生产力”

这是否意味着AI代理被过度炒作了？答案可能并非如此，但这确实提醒我们：业界对于AI代理生产力的宣传，需要建立在更科学、可量化的衡量标准之上。

24%的首次成功率，并不直接等同于“AI代理失败了”。它更确切地表明，当前AI代理的表现具有概率性。企业需要找到与之适配的使用方法，并为其设计合理的任务边界。

研究表明，AI代理在复杂任务中可以作为有效的辅助力量，前提是我们充分理解其局限性，并通过合理的任务设计来规避其短板。生产力的提升是可能的，但结果可能不稳定，并高度依赖于具体的应用场景。

对于技术管理者来说，关键在于明确：AI代理尚不能完全取代人类监督。然而，如果设定合理的期望，并有耐心地优化执行流程与交互方式，它们在任务完成方面的能力将持续增强，最终成为团队中可靠的数字化伙伴。如果你对AI代理、Agent 技术的最新发展和实践案例感兴趣，可以到云栈社区的讨论区，与其他开发者和技术管理者一起交流心得。

引用链接

[1] https://arxiv.org/pdf/2601.14242
[2] https://www.mercor.com/blog/expanding-the-ai-productivity-index-apex/
[3] https://www.bankinfosecurity.com/blogs/24-success-rate-for-ai-agents-that-acceptable-p-4038

上一篇：从SYN风暴到零窗口：Wireshark排查14种TCP协议故障的实战指南
下一篇：3个实用Bash脚本实例：自动化用户管理、系统备份与磁盘监控

AI代理, 人工智能, 基准测试, 企业应用, APEX-Agents