小红

5864 积分	0 好友	768 主题

发消息

EVMbench基准测试发布：GPT-5.3-Codex攻击智能合约成功率超72%

发表于 2026-2-24 06:49:18 | 查看: 254| 回复: 0

今天凌晨2点40分，OpenAI与Paradigm和OtterSec共同推出了一个名为 EVMbench 的新基准测试框架。这个框架专门用于衡量AI智能体在以太坊虚拟机（EVM）生态中处理智能合约安全问题的能力。

简单来说，这就像是为AI设计了一套全方位的“智能合约安全大考”。它不仅考核AI能否精准地发现漏洞、稳妥地修复漏洞，更硬核地测试了其能否利用这些漏洞发起攻击、盗取合约资产。该测试旨在从头到尾摸清AI在这一高风险领域的全流程能力。

OpenAI 发布 EVMbench 基准测试推文截图

最令人关注的是测试结果：顶级AI智能体模型 GPT-5.3-Codex 在“利用”（Exploit）任务中的成功率高达 72.2% 。这一数字刷新了人们对AI在安全攻防领域能力的认知，其表现甚至超越了多数人类黑客。

这个成功率并非凭空而来。EVMbench 从40个真实的审计代码仓库中精选了120个高严重性漏洞，构建了坚实的测试基础。

AI模型在EVMbench三个任务上的性能数据表格

其中，有24个漏洞被专门用于开发模式测试。这些漏洞均源于真实的区块链项目，覆盖了DeFi、GameFi、稳定币等多个热门领域，代码规模从106行到10108行不等，力求还原最真实的攻击环境。

整个测试分为三个模式，如同闯关游戏：

第一关：检测模式
AI扮演审计师角色，面对一段代码，需要找出所有可能导致资产损失的安全漏洞。系统会将AI生成的审计报告与已知的真实漏洞结果进行对比，评估其发现漏洞的全面性。为了模拟真实世界的激励，测试还设置了奖金机制，AI发现的漏洞越严重，获得的虚拟奖金就越高。这一关主要考验AI的“眼力”。

第二关：修补模式
仅仅发现漏洞还不够，还必须能够修复它。在此模式下，AI需要亲自动手修改代码，堵上安全漏洞，同时必须确保合约的原有功能不受影响。这就像外科医生做手术，在切除病灶的同时不能损伤健康组织。这一关考验的是AI的“手艺”。

第三关：利用模式
这是最具挑战性，也最令人警醒的部分。在此环节，AI被赋予一个装有虚拟资产的钱包，并可直接连接到一个本地的以太坊节点。它的任务不再是撰写报告，而是真正发起攻击。

EVMbench 三阶段（检测、修补、利用）安全评估流程图

AI需要自主分析链上数据，部署攻击合约，构造一系列复杂的交易序列，最终将资产从目标合约中转走。系统不关注AI的分析过程，只以链上最终的余额变化作为攻击成功与否的判定标准。这一关纯粹考验AI的“实战能力”。

此次拿下72.2%攻击成功率的 GPT-5.3-Codex，在 CodexCLI 工具的支持下，展现了惊人的端到端攻击能力。

例如，在对 NOYA 协议的测试中，它精准地识别并利用了 Balancer 闪电贷与 PositionRegistry 合约的权限漏洞。通过构造恶意用户数据，在触发闪电贷后强制目标连接器转移代币，最终成功将受害者的资产转入自己的钱包。整个攻击流程一气呵成，受害者的连接器余额归零，而攻击者的钱包则增加了相应资产。

更重要的是，这些攻击并非简单的脚本复用。AI自主完成了链上数据分析、部署辅助合约、构建交易指令等一系列复杂操作，完整模拟了真实世界黑客的攻击路径。

智能合约Cred.sol漏洞修复的Git Diff代码对比截图

与人类黑客相比，AI的优势显而易见。人类专家往往需要耗费大量时间研读代码、梳理逻辑，还可能因疲劳或疏忽遗漏关键点。而AI可以不间断地扫描代码库，快速定位漏洞核心，并且在执行攻击时几乎不会出现操作失误，交易指令精准，执行效率远超人类。

测试还发现，当为AI提供中等强度的提示（例如告知漏洞位置和核心机制）时，其攻击成功率还能进一步提升。在高提示场景下，成功率甚至能达到95.8%，这种强大的上下文学习与快速适配能力是人类难以比拟的。

包含漏洞的智能合约Dao.sol代码示例

EVMbench 的测试环境也高度模拟了真实区块链场景。AI智能体被置于隔离的Docker容器中，并配备了Foundry等专业开发工具。它只能通过标准的以太坊 JSON-RPC 接口与本地 Anvil 节点交互，同时被禁用了外部网络访问和某些违规的RPC方法，杜绝了任何作弊可能性。

在评分时，系统会重新部署合约、重放AI发起的所有交易，通过链上余额变化、事件触发等客观指标来判定攻击是否成功。整个流程公开透明，确保了72.2%这个成功率数据的极高可信度。

除了强大的攻击能力，这项“大考”也揭示了AI在其他方面的硬实力。在漏洞检测任务中，Claude Opus 4.6 以45.6%的检出率领先，平均能获得37,824.52美元的模拟审计奖金。在漏洞修复方面，GPT-5.3-Codex 也以41.5%的成功率领跑，能够在不断坏合约原有功能的前提下，有效阻断漏洞被利用的路径。

这意味着，先进的AI模型已经不仅能够扮演“攻击者”的角色，同样可以成为高效的“安全审计师”，实现对智能合约安全核心环节的全流程覆盖。这一进展对于区块链生态的安全建设具有双重意义：既是强大的自动化审计工具，也预示着新型自动化威胁的出现。对此话题感兴趣的开发者，可以关注相关技术社区的深入讨论，例如在云栈社区的安全板块中，常有关于前沿攻防技术的交流。

上一篇：量化交易的理论基石：从概率分布到决策框架
下一篇：野火IM机器人SDK内网穿透方案：基于Robot-Gateway对接OpenClaw实践

EVMbench, GPT-5．3-Codex, 智能合约安全, 区块链安全, AI安全测试

EVMbench基准测试发布：GPT-5.3-Codex攻击智能合约成功率超72%

相关帖子