找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3974

积分

0

好友

514

主题
发表于 15 小时前 | 查看: 36| 回复: 0

日前,由UC Berkeley打造的CyberGym,被业内称为AI安全“奥运会”。考题全部来自真实开源漏洞,规模达到传统测评基准的7.5倍,要求AI自主挖掘漏洞并输出可复现的攻击代码(PoC),全球大厂悉数参战。

CyberGym学术论文标题页

AI安全Agent排名榜单,MopMonk高居第7

图片来源:新智元

CyberGym PoC构建的四项难点

国产黑马凭空杀出

就在GPT-5.5、Claude等海外顶级模型同台比拼时,一个代号 MopMonk(扫地僧)的国产AI突然杀进榜单,以73.1%的成功率拿下全球第七、国内第一,成绩直逼OpenAI。

CyberGym模型成功率表格,MopMonk Agent 73.1%

诡异的是这支团队全程保持静默:没有发布会、没有官方宣传,只放出开源技术文档,团队背景至今成谜。取名“扫地僧”,充满武侠韵味——不显山露水,一出手就能与全球巨头掰手腕。

扫地僧形象图,古典武侠与赛博朋克融合

底层底气:MiniMax M3 打造强大基座

扫地僧的底层模型是国产开源模型 MiniMax M3,这也是它突围的核心根基。该模型集成了三大王牌能力:百万 token 超长上下文、顶尖代码能力,以及原生多模态。

面对 CyberGym 动辄百万行的大型代码库,1M 上下文窗口能直接吃进整个项目文件;代码跑分对标海外闭源大模型,具备长周期自主迭代与自我纠错能力,为漏洞挖掘提供了充足的算力与推理支撑。

制胜关键:专属 Harness 框架,补齐 AI 行动力

很多大模型看得懂漏洞,却写不出有效的 PoC,问题就卡在协调层 Harness 上,而这正是扫地僧的独门内功。

Agent架构:Model与Harness共同构成Agent

整套框架分三层核心设计:

  1. 结构化漏洞记忆:分类存储代码路径、失败案例、测试约束,无需每次重读全部代码,大幅降低计算消耗;
  2. 记忆驱动迭代挖掘:每轮测试结果自动留存,基于过往经验缩小搜索范围,减少无效试错;
  3. 多智能体并行探索:多个 Agent 共享记忆,从不同方向同步排查漏洞,互不重复、效率翻倍。

简单来说:M3 负责思考与判断,Harness 负责落地执行,两者深度绑定,把模型的智商转化为实打实的漏洞挖掘能力。

行业风向变了:堆参数已成过去式

此前行业普遍内卷模型参数规模,但 CyberGym 榜单给出了全新的结论:
Agent执行框架、调度工程的价值,远大于单纯扩充参数。

AI模型在CyberGym上的成功率与发布时间散点图

模型会持续迭代,但打磨成熟的 Harness 调度体系可以长期复用,具备显著的复利价值。扫地僧这套方案给国内 AI 安全团队指明了一条新路:用好优质开源基座,深耕智能体调度工程,完全有希望追上海外头部产品。

神秘扫地僧究竟来自哪里?

现有线索全部指向国内:东方武侠代号、上海 MiniMax 基座,以及深耕网络安全的技术路线。业内普遍猜测这是一支上海本土的 AI 安全团队。

网友评论猜测MopMonk来源截图

“起这种名字大概率是阿里”
“我喜欢这个名字,充满了武侠的浪漫,只有中国人懂的浪漫。”

网友讨论MopMonk武侠浪漫来源截图

不过官方至今没有透露企业或团队信息,只开放 GitHub 开源仓库。这名低调的国产“扫地僧”,也留下一个悬念:到底是哪家团队打造了这匹黑马?




上一篇:Claude Code创始人谈AI时代角色融合:未来团队需要这五种人
下一篇:GitHub匿名仓库公开大量0day PoC,影响Docker与Firefox等常用软件
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-7-1 15:52 , Processed in 1.258334 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表