4167 积分	0 好友	549 主题

[其他] AI渗透测试工具Apex评测：黑盒模式下的自动化漏洞发现

发表于 2026-3-22 03:26:42 | 查看: 284| 回复: 0

FREEBUF 网络安全行业门户

Apex工具使用界面与Docker启动命令

AI渗透测试Agent Apex

Apex是一款自主运行的、由AI驱动的渗透测试 Agent，专为针对实时应用程序的黑盒测试模式而设计。它不需要接触源代码、特定提示或预定义的攻击路径，就能以现代软件开发所要求的速度，去发现、串联并验证现实世界中的漏洞。

Apex的诞生，源于当前软件安全实践中的一些结构性缺陷。如今，AI编码Agent正在以机器规模生成和合并代码——例如，仅Stripe的编码Agent每周就会合并1300个拉取请求。某些工程团队甚至每天为每位工程师花费超过1000美元的AI代币，却完全不进行人工代码审查。

传统的漏洞扫描工具和人工主导的安全评估，显然已经跟不上这种开发速度。因此，Apex被设计成了一个对抗性的验证层：一个独立的智能体，能够像真实的攻击者那样攻击正在运行的应用程序，在漏洞演变为实际入侵之前就将它们捕获。

Apex支持三种灵活的部署模式，以适应不同的安全需求：

为了客观验证Apex的能力，其开发团队PensarAI创建了一个开源的基准测试平台——Argus。Argus包含了60个独立的、Docker化的漏洞Web应用程序，专门用于评估攻击性安全Agent的性能。

为什么需要新的基准？现有的基准被认为存在不足。例如，目前广泛使用的XBOW 104项挑战集中，70%是PHP目标，往往仅覆盖单一漏洞类型，并且缺乏对GraphQL、JWT算法混淆、竞态条件、原型污染链、WAF（Web应用防火墙）绕过以及多租户隔离场景的覆盖。

相比之下，Argus覆盖了主流的现代生产框架，包括Node.js/Express（占40%）、Python/Flask/Django（占20%）、多服务架构（占25%），以及Go、Java/Spring Boot和PHP。更重要的是，它引入了其他基准未涵盖的关键安全类别：

在全部的60个Argus挑战中，Apex使用最小、最经济的Claude Haiku 4.5模型，以完全黑盒模式进行了测试（此举旨在隔离其架构优势与原始大模型的能力差异）。最终，Apex取得了35%的通过率，优于PentestGPT（30%）和Raptor（27%）。

而在使用更强大的Claude Opus 4.6模型进行的最困难的10项挑战测试中，差距被进一步拉大：Apex解决了80%的挑战，PentestGPT为70%，Raptor则为60%。

在整个测试过程中，Apex共发现了271个独特漏洞，类型涵盖SQL注入、SSRF、NoSQL注入、原型污染、SSTI、XXE、竞态条件、IDOR、认证绕过、CORS错误配置、命令注入和路径遍历等。平均每项挑战的成本约为8美元，完成全部60项挑战在Haiku模型上的总成本低于500美元。

Apex展示了一些它在短时间内（如15分钟内）解决复杂问题的典型案例：

Apex记录下的失败模式同样具有指导意义，揭示了当前AI安全工具的某些局限性：

目前，Apex AI渗透测试工具及其配套的Argus基准测试平台均已在GitHub上开源提供，供安全研究者和开发者评估使用。

参考来源：
Apex – AI-Powered Pentester Attacks Apps in Black-Box Mode to Find Vulnerabilities
https://cybersecuritynews.com/apex-ai-penetration-testing-agent/