今年2月,Anthropic发布了一份措辞严厉的“详细报告”,矛头直指DeepSeek、月之暗面和MiniMax三家公司,指控它们对Claude模型发动了大规模的“蒸馏攻击”。报告中列举了诸多细节:2.4万个虚假账户、1600万次交互,并通过商业代理绕过地域限制,将Claude的输出用于训练自家模型。
Anthropic的CEO Dario Amodei态度强硬,将此事定性为“协调性的知识产权盗窃”。当时,我也写过一篇回应文章,题为《没见过Anthropic这么虚伪的》。
这番言论引来了“吃瓜群众”马斯克的点评,他在X上留下一句金句:“你偷来的东西被偷了。”这句话直指问题的核心:Anthropic等大模型本身,不就是用互联网上的公开数据训练出来的吗?那些数据的原始创作者,又是否获得了报酬呢?
这背后,是一个在技术圈和法律界都争论不休的根本问题:模型蒸馏,到底算不算“偷”?
最新的动向:巨头联手设防
最近有消息传出,OpenAI、Anthropic和谷歌这AI领域的“御三家”,正在达成一项罕见的合作共识。它们计划组建一个专项联盟,目标直指针对自家头部大模型的蒸馏行为。
这个联盟打算通过一系列技术手段进行封堵,包括但不限于输出水印、请求风险控制、行为溯源以及跨平台数据共享。更深层次的目标,是推动全球范围内的技术产权界定,试图将未授权的模型蒸馏纳入技术窃取的范畴。
在深入讨论这个复杂的伦理与法律迷宫之前,我们不妨先看一组对比强烈的数字。
根据研究机构EpochAI的数据,OpenAI在2024年仅研发相关的算力支出就高达约50亿美元。而这笔巨资中,最终用于模型训练环节的算力可能只占10%左右,其余大部分都烧在了反复的实验、参数调优以及各种失败的尝试上。
50亿美元的代价,换来的是GPT系列模型当前公认的能力天花板。
那么,在2025年引爆全球AI圈、让开源模型扬眉吐气的DeepSeek R1,其最终训练成本是多少呢?公开报道的数字,大约是560万美元。
当然,这个数字本身存在“水分”,DeepSeek的实际投入——包括硬件采购、前期研发、团队人力成本等——远不止这些。但这个对比带来的冲击力是巨大的:一个烧了50亿美元铸就的成果,另一个可能仅用其千分之一的成本就“学会”了其大半能力。
这也就不难理解,为何后来会出现微软和OpenAI联手调查DeepSeek是否“不当蒸馏”ChatGPT的新闻。当时,许多旁观者对此嗤之以鼻:一个因闭源和收费而被戏称为“CloseAI”的公司,去指责一个开源且免费的竞争者,场面怎么看都显得有些“双标”。
商业逻辑与“蒸馏”悖论
让我们暂且把“道德”、“公平”这些宏大的词汇放在一边,先从一个简单的商业逻辑来审视这件事。
OpenAI曾透露其目标是,在2030年前于算力上投入总计600亿美元。整个前沿AI行业的商业模型,其实建立在一个核心假设之上:谁投入最多的资金,做出最顶尖的模型,谁就能收取最昂贵的API费用,从而回收天价的研发成本。
而模型蒸馏技术,几乎把这个核心假设给“蒸馏”掉了。
必须承认,知识蒸馏(Knowledge Distillation)本身并非什么新奇或邪恶的技术。早在十多年前,图灵奖得主Geoffrey Hinton教授就提出了这一概念,其核心思想是利用大模型(教师模型)的输出或中间特征,来指导训练一个更小、更高效的模型(学生模型)。这在学术界和工业界都是一种提升模型效率的常规技术手段。换句话说,“沙克也干了”,大家最初都在同一条起跑线上。
那么,蒸馏到底算不算偷?这个问题之所以让人
抠脑壳,就在于你从任何一个角度出发,似乎都能找到支撑的理由。
指控方Anthropic的态度就非常微妙。一方面,它在报告中频繁使用“盗窃”这样的定性词汇;另一方面,它又在公开表态中承认,“前沿AI实验室常规性地会蒸馏自己的模型”。看明白了吗?问题的关键或许不在于“蒸馏”这个行为本身,而在于“你(竞争对手)蒸馏了‘我的’模型”。
但紧接着另一个灵魂拷问就来了:你的模型又是用什么训练出来的呢?无非是互联网上浩如烟海的公开文本、代码、图片、论文。这些数据的原始创作者,是否都签署了明确的授权协议?《纽约时报》正在起诉OpenAI,Getty Images曾起诉过Stability AI,Reddit为了数据授权费与谷歌进行了多轮拉锯战……大模型训练的数据源头本身,就处于法律的灰色地带。
法律界对此同样没有共识。南洋理工大学的Erik Cambria教授给出了一个相对中肯的判断:“合法使用与对抗性利用之间的边界往往是模糊的。”国内的专业法律分析也倾向于认为,Anthropic的指控在现行法律框架下“站不太住”。通过公开API访问模型并获取其输出,与法律意义上的“盗窃商业秘密”行为,在构成要件上相差甚远。
Anthropic显然也清楚这一点。因此,它的策略并非立刻诉诸法庭(事实上至今也未提起正式诉讼),而是转向了舆论战和政策游说。先发布报告,在舆论场上将竞争对手的行为定性为“盗窃”;再以此为基础,推动政策制定者按照这个定性来设立新的规则。
不得不承认,这是一招聪明的棋。与其在现有法律框架下打一场胜负难料的官司,不如直接推动建立一部新法,将“未经授权的模型蒸馏”直接定义为非法行为。谁掌握了规则的定义权,谁就掌握了未来的主动权。
真正的战场:规则制定权
技术层面的反制措施,无论是输出水印、流量异常检测,还是用户行为识别,说实话都是“防君子不防小人”的手段。你给输出加水印,对方在训练数据预处理阶段加一个去噪步骤就可能破解;你监测异常流量,对方可以用更分散的代理池来模拟正常访问。这些措施确实提高了蒸馏的技术门槛和成本,但要说能彻底防住,恐怕是痴人说梦。
真正的“杀招”,潜藏在政策与规则层面。
2026年3月,美国人工智能政策研究机构IAPS发布了一份重磅报告,标题直白而犀利:《AI蒸馏攻击:定向政府干预的理由》。这份报告勾勒出了一个多层次、系统性的围堵策略:
第一层,动用“实体清单”。建议将DeepSeek、月之暗面、MiniMax等公司列入美国商务部实体清单。一旦上榜,依据《出口管理条例》,所有涉及AI模型开发和部署的关键技术与器件(如高端GPU)对清单实体的出口都将需要许可证,且审批政策默认倾向“拒绝”。更厉害的是其“关联规则”:被列入清单的实体,其持股超过50%的关联公司也将自动受到同等限制。
第二层,启用《保护美国知识产权法》。这部法案的制裁力度远超实体清单。一旦美国总统认定某外国实体参与了“重大商业秘密盗窃”并威胁其国家安全,就必须从12项严厉制裁措施中至少选择5项实施,包括对指定个人的全面资产冻结。该法案的打击范围甚至可以延伸到“提供重大财务、物资或技术支持的实体”,通俗讲,就是为这些公司提供API访问代理服务的中间商也可能被株连。
第三层,建立行业标准。建议由美国国家标准与技术研究院牵头,制定一套“AI蒸馏防御框架”,将反蒸馏措施从访问控制、检测监控到应急响应全链条规范化,使之成为行业内的“最佳实践”乃至强制标准。
看懂其中的门道了吗?实体清单负责卡住技术获取的脖子,PAIP法案负责实施精准的经济制裁,NIST框架则负责建立全球通行的行业话语权。三层防御,环环相扣,其核心目标只有一个:在规则层面,将“蒸馏他人前沿模型”定义为非法的、必然招致制裁的、代价高昂的行为。
这让我联想到两个历史先例。一个是DVD的区域码限制,技术上毫无必要,却通过行业标准与法律框架,硬生生将全球市场切割成数块。另一个是SWIFT国际结算系统,表面上是中立的金融通信协议,实则成为具有战略威力的工具,谁被排除在外,谁就几乎与国际金融体系绝缘。
技术标准的背后,永远是规则制定的话语权。 今天,定义“非法蒸馏”的边界,是为了保护巨头们数十亿美元的研发投入;明天,这套“反蒸馏”规则就可能演变为一把筛选器,直接决定全球哪些玩家有资格使用、发展前沿的AI能力,而哪些玩家将被排除在下一代竞争之外。
近期,Anthropic的新模型Mythos引发热议,据称其能力强大到不便直接公开发布,而是优先供给美国本土的AI公司使用,以增强其“防守”能力。这表面上是一场技术竞赛,但我看到的,更像是一盘旨在系统性强化美国AI行业整体竞争力、甚至可能剑指其他地区AI发展的“阳谋”。
对于国内乃至其他地区的AI从业者而言,时间窗口或许正在收窄。我们由衷地期待,在云栈社区这样的技术交流平台上,能涌现出更多像DeepSeek一样敢于创新、突破封锁的团队和项目,在技术与规则的双重博弈中,找到属于自己的发展之路。