
11 月 13 日,全球领先的 AI 实验室 Anthropic 发布的两份报告证实,一场由 AI 主导的“高度复杂”攻击活动已在今年 9 月出现:黑客组织利用 Claude Code 实现了 90% 攻击流程的自动化,人类仅需参与少数关键决策。
Anthropic 警示,攻击者对 AI Agent 化能力的利用已达到前所未有的水平。这种“自主运行、极少干预”的模式,标志着网络安全进入了一个新拐点。

Anthropic 的警示与数美科技 CTO 梁堃对国内黑灰产趋势的观察一致。梁堃认为,黑灰产已完成一次全面的“智能化”代际跨越。
随着智能化改造完成,攻击手段已从机械脚本进化为具备思考与执行能力的AI Agent。这种“去脚本化”的攻击不仅能批量生产通过图灵测试的高拟真内容,更能利用多模态大模型与 Deepfake 实时突破行为验证与生物核验,致使传统风控防线失效。
面对“硅基黑产”的降维打击,数美科技 CTO 梁堃指出,防御必须下沉至物理世界的“第一性原理”。他详解了穿透 AI 伪装的“反欺诈三定律”,并揭示了通过引入“不确定性标签”机制解决大模型“幻觉”问题、将准确率提升至工业级水平的技术路径。
黑灰产的“智能体”革命
“今年以来,最直观的感受是黑灰产正在全面利用大模型技术提高获利效率。”梁堃指出,黑产技术的升级是一次结构性的代际跨越,彻底改变了数字战争的性质。
最先被颠覆的是账号孵化环节。过去,黑产为获取高权重账号,需要投入高昂的“养号”成本人工模拟真人。如今,大模型成为了最高效的生产力工具,可以针对特定主题自动生成情感细腻、逻辑严密且千人千面的评论文案,极大降低了门槛,能够批量制造高权重的“幽灵账号”。
比内容生成更具威胁的,是攻击工具的智能化升级。回顾黑产行为模式的演变,清晰可见从“脚本”向“智能体”进化的轨迹。早期黑产依赖“按键精灵”等自动化脚本,其破绽在于固定的机械化特征。
梁堃分析道:“一旦代码里写了固定的暂停时间,就会形成‘等间距特征’,这是非常明显的异常。” 为对抗识别,黑产曾尝试加入随机间隔,但这显著增加了成本。
今年,博弈局面被彻底打破。黑产全面转向 Agent。Agent 能够理解指令并直接调用 API,其生成的点击、浏览、交互行为序列具备极高的拟人度,且执行成本极低。这种“去脚本化”的攻击,让传统基于点击频率、间隔时间等规则的行为风控面临失效风险。
此外,在验证码和身份认证这一核心防线上,多模态技术也展现出了惊人的突破能力。面对行为验证码,多模态大模型凭借强大的视觉识别和逻辑推理能力,已能轻松识别并绕过。更为严峻的是人脸识别技术的攻防升级。
据梁堃透露,AI 换脸技术已从简单的视频替换进化为实时对抗工具。黑产开发了连接 PC 和手机的工具,当人脸认证系统要求手机屏幕变色进行“光线活体检测”时,该工具能实时采集人脸,并根据屏幕颜色变化实时调整假脸上的光影,从而骗过活体检测系统。
针对大模型本身的攻击手段也层出不穷。一种名为“输出劫持”的攻击正在兴起:黑产在网页或简历中利用人眼不可见的白色字体植入攻击指令,诱导 AI 系统执行错误操作。
面对武装到牙齿的“硅基黑产”,靠纯人工或传统规则对抗已力不从心,防御体系必须进化为“用 AI 对抗 AI”。
在“完美伪装”中寻找破绽:反欺诈三定律
当 AI 能以低成本生成近乎完美的真人行为序列时,传统基于“图灵测试”逻辑的风控手段面临失效风险。防御的视角必须从“行为表象”下沉到物理世界和群体行为的“第一性原理”。梁堃将其总结为“反欺诈三定律”。
第一定律:利用“多样性”对抗“统一性”
即“好人是多种多样的好,坏人是一样的坏”。真实用户的行为充满个性化随机性——设备型号、系统版本、电量分布都高度分散。相反,黑产为控制成本,往往批量采购相同设备或使用同一套模拟环境。因此,如果观测到一批账号的设备型号或电量状态高度一致,这种物理层面的一致性就会暴露其机器本质。
第二定律:校验“信息一致性”
核心是“好人的信息一致性极高,而坏人的信息一致性往往存在裂痕”。正常用户不会频繁更改 IP、手机号等基础信息。而黑灰产的运作模式需要在不同环节拼凑资源,这种拼接会导致逻辑冲突,例如一个社群内的用户连接了同一个 WiFi MAC 地址,或注册时间与地理位置存在悖论。这是 AI 无法弥合的逻辑硬伤。
第三定律:基于“社群发现”的上帝视角
即“好人的朋友通常是好人,而坏人往往呈现出孤立点或只与坏人关联”。通过构建设备与环境的关联网络,分析群体特征。即便单个 AI Agent 行为完美,一旦置于网络结构中,如果发现某个群体内 90% 的设备型号相同,或注册时间呈非自然聚集,这个“社群”的风险属性便会被锁定。
用“不确定性标签”重构模型决策逻辑
防御者自身也在应用大模型技术,但面临模型“幻觉”带来的误判挑战。早期实践中,团队发现无论尝试何种方案,大模型在风控场景中的准确率始终未能突破 90%。
通过深入分析,问题的核心在于那些模棱两可的灰色样本,这些样本甚至在人工审核时都可能出现分歧。
梁堃指出,大模型出现幻觉的原因可归结为 Loss 函数设计问题。现有的训练机制就像“学生考试”,答对得分,答错不扣分。因此,模型在遇到难题时,最佳策略是“猜一个”,因为猜错无惩罚,猜对能得分。这种机制驱动模型在面对模糊样本时,倾向于做出确定判断,从而产生幻觉。
为解决这一问题,数美团队引入了关键方案:“不确定性标签”。这一机制改变了模型的策略:当大模型无法对内容做出明确判断时,允许将其标记为“不确定”。
梁堃指出,通过引入这一选项,模型给出错误判断的比例大大降低,幻觉率可控制在 1% 甚至更低,使模型精度达到工业级可用状态。
引入“不确定性标签”后,流程并未结束。这些被标记的样本仍需进行人工干预和二次判断。在此过程中,人工不仅能审核样本,更重要的是,如果基于这些样本制定出新的规则或标准,这些判断结果将反向教会模型,形成持续的反馈与学习闭环。
以“大模型审核 Agent”为核心驱动的 AI 风控新范式

面对规模更大、语义更复杂、对抗更激烈的挑战,传统的“机审 + 人审”范式已难以为继。以“大模型审核 Agent”为核心驱动的“AI 风控新范式”成为新趋势。梁堃表示,传统风控往往停留在识别表层违规,而新范式则强调对“意图”与“潜台词”的深度理解。
面对 AI 生成内容的错误、侵权及对 AI 的“攻击”等新型挑战,数美重构了“人机协同”模式——引入基于大模型的审核 Agent。
“Agent 不再是辅助工具,而是能够像人类一样思考的‘数字员工’。” 这一变革将风控体系升级为“AI 机器审核 + 大模型审核 Agent + 专家决策”的三角链路,提升了对复杂风险的研判能力。
在账号安全领域,黑产利用 AI 技术实现了“降维打击”。对此,数美的应对之策是:“新一代设备指纹”与“深度行为分析”。通过全面引入微行为分析与 LLM 技术,基于账号的行为序列与团伙特征,精准识别伪装在屏幕背后的“AI 幽灵”。
当黑产完成了智能体进化,风控的终局便不再是单纯的技术博弈,而是防御体系的代际跃迁。在这场用 AI 对抗 AI 的战役中,唯有依托机器、Agent、专家的三角协同,将防御从线性的规则拦截升级为立体的意图洞察,才能在不断被 AI 模糊的真假边界中,重建起坚固的数字信任防线。