3974 积分	0 好友	514 主题

国产AI安全黑马MopMonk凭MiniMax M3与Harness闯入CyberGym全球前七

发表于 15 小时前 | 查看: 36| 回复: 0

日前，由UC Berkeley打造的CyberGym，被业内称为AI安全“奥运会”。考题全部来自真实开源漏洞，规模达到传统测评基准的7.5倍，要求AI自主挖掘漏洞并输出可复现的攻击代码（PoC），全球大厂悉数参战。

CyberGym学术论文标题页

AI安全Agent排名榜单，MopMonk高居第7

图片来源：新智元

CyberGym PoC构建的四项难点

就在GPT-5.5、Claude等海外顶级模型同台比拼时，一个代号 MopMonk（扫地僧）的国产AI突然杀进榜单，以73.1%的成功率拿下全球第七、国内第一，成绩直逼OpenAI。

CyberGym模型成功率表格，MopMonk Agent 73.1%

诡异的是这支团队全程保持静默：没有发布会、没有官方宣传，只放出开源技术文档，团队背景至今成谜。取名“扫地僧”，充满武侠韵味——不显山露水，一出手就能与全球巨头掰手腕。

扫地僧形象图，古典武侠与赛博朋克融合

扫地僧的底层模型是国产开源模型 MiniMax M3，这也是它突围的核心根基。该模型集成了三大王牌能力：百万 token 超长上下文、顶尖代码能力，以及原生多模态。

面对 CyberGym 动辄百万行的大型代码库，1M 上下文窗口能直接吃进整个项目文件；代码跑分对标海外闭源大模型，具备长周期自主迭代与自我纠错能力，为漏洞挖掘提供了充足的算力与推理支撑。

很多大模型看得懂漏洞，却写不出有效的 PoC，问题就卡在协调层 Harness 上，而这正是扫地僧的独门内功。

Agent架构：Model与Harness共同构成Agent

整套框架分三层核心设计：

简单来说：M3 负责思考与判断，Harness 负责落地执行，两者深度绑定，把模型的智商转化为实打实的漏洞挖掘能力。

此前行业普遍内卷模型参数规模，但 CyberGym 榜单给出了全新的结论：
Agent执行框架、调度工程的价值，远大于单纯扩充参数。

AI模型在CyberGym上的成功率与发布时间散点图

模型会持续迭代，但打磨成熟的 Harness 调度体系可以长期复用，具备显著的复利价值。扫地僧这套方案给国内 AI 安全团队指明了一条新路：用好优质开源基座，深耕智能体调度工程，完全有希望追上海外头部产品。

现有线索全部指向国内：东方武侠代号、上海 MiniMax 基座，以及深耕网络安全的技术路线。业内普遍猜测这是一支上海本土的 AI 安全团队。

网友评论猜测MopMonk来源截图

“起这种名字大概率是阿里”
“我喜欢这个名字，充满了武侠的浪漫，只有中国人懂的浪漫。”

网友讨论MopMonk武侠浪漫来源截图

不过官方至今没有透露企业或团队信息，只开放 GitHub 开源仓库。这名低调的国产“扫地僧”，也留下一个悬念：到底是哪家团队打造了这匹黑马？