找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3736

积分

0

好友

514

主题
发表于 昨天 06:49 | 查看: 4| 回复: 0

今天凌晨2点40分,OpenAI与Paradigm和OtterSec共同推出了一个名为 EVMbench 的新基准测试框架。这个框架专门用于衡量AI智能体在以太坊虚拟机(EVM)生态中处理智能合约安全问题的能力。

简单来说,这就像是为AI设计了一套全方位的“智能合约安全大考”。它不仅考核AI能否精准地发现漏洞、稳妥地修复漏洞,更硬核地测试了其能否利用这些漏洞发起攻击、盗取合约资产。该测试旨在从头到尾摸清AI在这一高风险领域的全流程能力。

OpenAI 发布 EVMbench 基准测试推文截图

最令人关注的是测试结果:顶级AI智能体模型 GPT-5.3-Codex 在“利用”(Exploit)任务中的成功率高达 72.2% 。这一数字刷新了人们对AI在安全攻防领域能力的认知,其表现甚至超越了多数人类黑客。

这个成功率并非凭空而来。EVMbench 从40个真实的审计代码仓库中精选了120个高严重性漏洞,构建了坚实的测试基础。

AI模型在EVMbench三个任务上的性能数据表格

其中,有24个漏洞被专门用于开发模式测试。这些漏洞均源于真实的区块链项目,覆盖了DeFi、GameFi、稳定币等多个热门领域,代码规模从106行到10108行不等,力求还原最真实的攻击环境。

整个测试分为三个模式,如同闯关游戏:

第一关:检测模式
AI扮演审计师角色,面对一段代码,需要找出所有可能导致资产损失的安全漏洞。系统会将AI生成的审计报告与已知的真实漏洞结果进行对比,评估其发现漏洞的全面性。为了模拟真实世界的激励,测试还设置了奖金机制,AI发现的漏洞越严重,获得的虚拟奖金就越高。这一关主要考验AI的“眼力”。

第二关:修补模式
仅仅发现漏洞还不够,还必须能够修复它。在此模式下,AI需要亲自动手修改代码,堵上安全漏洞,同时必须确保合约的原有功能不受影响。这就像外科医生做手术,在切除病灶的同时不能损伤健康组织。这一关考验的是AI的“手艺”。

第三关:利用模式
这是最具挑战性,也最令人警醒的部分。在此环节,AI被赋予一个装有虚拟资产的钱包,并可直接连接到一个本地的以太坊节点。它的任务不再是撰写报告,而是真正发起攻击。

EVMbench 三阶段(检测、修补、利用)安全评估流程图

AI需要自主分析链上数据,部署攻击合约,构造一系列复杂的交易序列,最终将资产从目标合约中转走。系统不关注AI的分析过程,只以链上最终的余额变化作为攻击成功与否的判定标准。这一关纯粹考验AI的“实战能力”。

此次拿下72.2%攻击成功率的 GPT-5.3-Codex,在 CodexCLI 工具的支持下,展现了惊人的端到端攻击能力。

例如,在对 NOYA 协议的测试中,它精准地识别并利用了 Balancer 闪电贷与 PositionRegistry 合约的权限漏洞。通过构造恶意用户数据,在触发闪电贷后强制目标连接器转移代币,最终成功将受害者的资产转入自己的钱包。整个攻击流程一气呵成,受害者的连接器余额归零,而攻击者的钱包则增加了相应资产。

更重要的是,这些攻击并非简单的脚本复用。AI自主完成了链上数据分析、部署辅助合约、构建交易指令等一系列复杂操作,完整模拟了真实世界黑客的攻击路径。

智能合约Cred.sol漏洞修复的Git Diff代码对比截图

与人类黑客相比,AI的优势显而易见。人类专家往往需要耗费大量时间研读代码、梳理逻辑,还可能因疲劳或疏忽遗漏关键点。而AI可以不间断地扫描代码库,快速定位漏洞核心,并且在执行攻击时几乎不会出现操作失误,交易指令精准,执行效率远超人类。

测试还发现,当为AI提供中等强度的提示(例如告知漏洞位置和核心机制)时,其攻击成功率还能进一步提升。在高提示场景下,成功率甚至能达到95.8%,这种强大的上下文学习与快速适配能力是人类难以比拟的。

包含漏洞的智能合约Dao.sol代码示例

EVMbench 的测试环境也高度模拟了真实区块链场景。AI智能体被置于隔离的Docker容器中,并配备了Foundry等专业开发工具。它只能通过标准的以太坊 JSON-RPC 接口与本地 Anvil 节点交互,同时被禁用了外部网络访问和某些违规的RPC方法,杜绝了任何作弊可能性。

在评分时,系统会重新部署合约、重放AI发起的所有交易,通过链上余额变化、事件触发等客观指标来判定攻击是否成功。整个流程公开透明,确保了72.2%这个成功率数据的极高可信度。

除了强大的攻击能力,这项“大考”也揭示了AI在其他方面的硬实力。在漏洞检测任务中,Claude Opus 4.6 以45.6%的检出率领先,平均能获得37,824.52美元的模拟审计奖金。在漏洞修复方面,GPT-5.3-Codex 也以41.5%的成功率领跑,能够在不断坏合约原有功能的前提下,有效阻断漏洞被利用的路径。

这意味着,先进的AI模型已经不仅能够扮演“攻击者”的角色,同样可以成为高效的“安全审计师”,实现对智能合约安全核心环节的全流程覆盖。这一进展对于区块链生态的安全建设具有双重意义:既是强大的自动化审计工具,也预示着新型自动化威胁的出现。对此话题感兴趣的开发者,可以关注相关技术社区的深入讨论,例如在云栈社区的安全板块中,常有关于前沿攻防技术的交流。




上一篇:量化交易的理论基石:从概率分布到决策框架
下一篇:野火IM机器人SDK内网穿透方案:基于Robot-Gateway对接OpenClaw实践
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-25 10:44 , Processed in 0.553327 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表