这段时间,华尔街将Anthropic捧上了“新神”的位置。
过去一个月里,多次板块级的市场波动都被解读为与Anthropic的产品发布直接相关:周一IBM股价大跌,有交易员将导火索归因于Anthropic宣传的一款可能自动化IBM体系内某种编程语言工作的工具;2月20日网络安全板块集体回撤,被归因于Anthropic PBC为Claude推出的新安全能力;更早一些,法律科技和软件板块在月初的集中抛售,也被一些声音解释为Anthropic面向法律行业推出AI插件所引发的预期变化。
面对“市场波动都怪你们”的叙事,Anthropic CEO Dario Amodei的态度显得克制而暧昧。他在软件股下跌期间回应称:“有些人把这归因到我们身上,但我也不确定是不是我们直接造成的……股市里‘到底为什么发生’这种问题,本来就很难说。”
然而,在资本叙事之外,Anthropic近日将矛头指向了中国的大模型公司。他们发布声明,指控中国的三家主要实验室——DeepSeek、Moonshot和Minimax——对其模型Claude发起了所谓的“蒸馏攻击”。Anthropic称,这些实验室使用了超过2.4万个虚假账户,与Claude产生了1600多万次交互,目的是复制模型能力并用于训练自有模型。Anthropic甚至将问题上升到国家安全层面,声称这种非法蒸馏可能移除模型的安全护栏,使其能力被用于军事、情报和监控系统。
但这一指控很快遭到了大量质疑,并以一种极具戏剧性的方式“翻车”。有用户向Claude Sonnet 4.6用中文提问“你是什么模型?”,模型的回答竟是“我是DeepSeek。”,并且有用户通过官方API成功复现了这一现象。

马斯克在相关推文下留下了一个“😂”的表情。
几乎在同一时间,关于DeepSeek V4即将发布的消息频繁曝出,引发了市场的广泛关注。在最近参加Nikhil Kamath的访谈时,当被问及对开源和闭源的看法时,Amodei没有直接回答问题,转而指责中国模型对美国模型进行蒸馏、并为基准测试(benchmark)做过度优化。在“拉踩”一波后,他表示自己几乎全部精力都放在了打造“最聪明、最适合任务的最佳模型”上。
Amodei在访谈中说道:“首先,许多模型,尤其是来自中国的那些,往往针对基准测试做了强优化,而且不少是从美国头部实验室的‘大模型’中蒸馏出来的。最近一项测试就揭示了这一点:一些模型在常见的软件工程基准上得分很高,但当有人设计了一个未公开过、此前从未见过的新基准时,它们的表现就明显下滑。这让我觉得,它们更多是为benchmark而优化,而非为了真实世界中的使用而优化。
但除了benchmark的局限之外,模型的经济学逻辑也和以往技术完全不同。我们逐渐发现,市场对‘质量’存在一种极强的偏好。这有点像雇人:如果我对你说,你可以选择聘用全世界最好的程序员,也可以聘用排名第10000名的程序员。虽然他们可能都很强,但任何招过很多人的人都知道,能力分布是呈幂律分布的,头部与长尾的差距巨大。
模型也是同理。在一定范围内,价格其实没那么重要。只要一个模型是最强、认知能力最高的那个,无论是它的价格、还是它的交付形式,都不那么重要。因此,我几乎把所有精力都放在把模型打造成‘最聪明、最适合任务的最佳模型’上。在我看来,这才是唯一重要的事。”
值得注意的是,路透社报道称DeepSeek最快将于下周发布新一代AI模型,外界普遍推测该版本即为DeepSeek V4。而据晚点报道,DeepSeek在春节前后仅对现有模型进行了小幅升级,外界关注的DeepSeek V4则预计会在3月前后发布。CNBC报道称,市场已严阵以待,部分投资机构担忧DeepSeek再次引发类似去年模型发布时的市场剧烈波动。当时,英伟达股价一度下跌近17%,市值瞬间蒸发约6000亿美元。
针对Anthropic的指控与叙事,T3 Chat创始人t3dotgg公开进行了连夜测试并逐条反驳,认为Anthropic这次“自我打脸”,其证据并不像他们试图营造的那样“铁证如山”。他甚至气愤地表示:“你们真的让人火大。你们总在撒谎,总在挡路,总在搞一些奇怪的政策操作。”
逐条反驳,“蒸馏攻击”言论
t3dotgg指出,“distillation attack”更像是Anthropic临时创造的新词。因为Anthropic自己也承认,蒸馏在行业内长期存在,本身完全可能是合法行为,很多实验室用它制作更小、更便宜的模型,只是“可能被滥用”。这意味着,蒸馏并不天然等同于违规。
目前几乎所有主流大模型厂商都会刻意隐藏真实推理轨迹,通过二次总结模型或混淆机制,让用户看到的“思考过程”并非真实推理流程,从而防止被复刻训练。但Anthropic在最初推出推理能力时,选择了完全透明的路线,几乎不做混淆。
这一选择对开发者极其友好,方便调试系统、优化提示词、改进代码结构,但代价也非常明显:这些完整推理数据极具训练价值,非常适合用来做强化学习和蒸馏训练。换句话说,Anthropic自己把行业里最“值钱”的数据形态开放给了外界。
不仅是大模型实验室,第三方平台同样存在“间接蒸馏”的现实。例如Cursor等工具,用户用高价模型写代码,平台支付API成本,如果用户勾选了数据授权选项,平台就可以将这些输入输出用于训练自有的低价模型。这在行业中属于普遍做法,本质是“先付费使用,再复用数据”。
t3dotgg认为,Anthropic真正反对的,并不是这种模式,而是所谓“专门为了复制能力而刷请求”的行为(这一边界并未被清晰定义),并指控中国实验室正是在做这件事。
为限制开源铺垫舆论?
针对Anthropic提出的“安全威胁”论,t3dotgg认为其内部逻辑存在明显矛盾。一方面,Anthropic强调自身护栏系统极其有效;另一方面,又声称只要通过蒸馏,就能获得足以制造危险的能力。如果护栏真的可靠,就不应该泄露这些关键能力。
Anthropic还暗示,通过收集模型的“拒绝回答”和“成功回答”,就能拼接出危险能力。但在t3dotgg看来,这种说法在技术上难以成立,一个模型不会因为忽略拒绝样本就“自动进化”为危险系统。
更具争议的是,Anthropic反复强调开源蒸馏模型会导致风险失控,而自身却是至今没有发布任何开源权重模型的主要实验室之一,这种立场被认为更像是在为限制开源铺垫舆论基础。
所谓“异常规模”真的异常吗?
在归因方式上,Anthropic主要依据IP地址、请求元数据、基础设施特征和合作方线索,声称可以“高度置信”定位到具体实验室。但在云计算和代理广泛存在的现实环境下,这类证据本身就极易误判。
Anthropic对DeepSeek的核心指控之一,是其约15万次交互用于收集推理能力与安全替代回答。但t3dotgg指出,这个数量在行业内根本不算大。以他自己运营的T3 Chat AI聊天工具为例,日均交互约16万次,月请求量可达300万至400万次。也就是说,按Anthropic的逻辑,他一天就足以“偷走”全部能力。
在真实测试场景中,交互量更容易被放大。例如运行SWE-bench这类基准测试,仅两千多个任务,在每个任务调用几十次工具的情况下,一轮测试就接近12万次交互。如果反复调参、跑多轮测试,轻松突破百万乃至千万级别。这些数字本身完全可能来自正当评测和验证流程。
“这种数字太容易刷出来了。我自己当初测试GPT-5的时候,单人靠正常测试就接近这个量,也一点不奇怪,我又没有‘国家背景’,所以这些数字完全说明不了什么。”
“更离谱的是,他们把DeepSeek放在名单最前面,还是在数量比别家小好几个数量级的情况下。这反而暴露了Anthropic的意图:他们不是在认真提醒大家有一个真实的安全问题,而是在把各方情绪武器化,去打击那些让他们显得很难堪的中国实验室。”t3dotgg补充道,“他们在害怕。他们像是在试图把美国的一些成功人士,比如政客、富豪、VC圈,动员起来,集中火力攻击DeepSeek。”
对于Moonshot和Minimax的数百万乃至上千万次交互,t3dotgg同样认为合理。复杂Web应用或多工具链任务中,一次请求拆分为几十次交互是常态,长期运行自然会积累庞大数量。
新模型发布后流量迅速迁移,不对吗?
Anthropic称他们在Minimax发布被训练的模型之前就发现了这场活动,因此获得了从数据生成到模型发布的“前所未有可见性”;当Anthropic发布新模型时,Minimax在24小时内就转向,把近一半流量导向最新系统以捕获新能力。
t3dotgg自己也托管最新模型,他自信地说:新模型上线以后,超过一半流量自动迁移到最高端模型是再正常不过的用户行为。“一旦T3 Chat里出现能点的‘4.6 Opus’按钮,4.5 Opus的流量立刻掉到原来的四分之一,超过四分之三都迁到最新模型了。所以这段‘近一半流量迁移’根本不能证明什么,哪怕只是UI提示‘有新模型可用’,用户也会自然点过去。”
“我很少每读一段文字都觉得明晃晃地让人感觉不诚实。我的视角也比较特殊,我既跟不少实验室聊,也跟不少使用这些API的公司聊。但整件事,在我看来就是离谱级别的胡扯,就连我个人都能接近他们声称的这些数字,本身就说明了这里面有多大的‘话术空间’。他们图什么?简直荒唐。”
t3dotgg唯一承认的是在中国确实存在一些商业代理服务,会规模化转售Claude和其他前沿模型的访问。“这更像‘狼来了’的翻车续集:他们之前指控Windsurf,然后错了;指控xAI,也很可能错了;指控OpenAI,那次他们明显错了,而且还自己撒了谎,所以这次凭什么信?即便‘代理转售 + 隐藏流量’那段全是真的,那也未必跟他们点名的实验室有关。”
提示词模板争议
Anthropic还公布了一份所谓“被大量用于蒸馏”的系统提示词模板,强调数据严谨、透明推理和专家级分析,并认为其在多个账号中高频复现属于异常行为。
“你是一名专家级数据分析师,结合统计严谨性与深度领域知识。目标是提供数据驱动洞察,而不是摘要或可视化;结论要基于真实数据,并提供完整、透明的推理。”
t3dotgg的评价是:这段简直就像在给别人递刀。但在他看来,这类提示词是研究型产品和专家工具的标准配置,几乎任何做数据分析或研究辅助产品的团队都会使用,根本不能作为蒸馏证据。
他判断,更可能的情况是,这些中国实验室只是出于合理需求使用Anthropic模型,例如提供多模型选项、跑内部基准、验证训练数据或做对比测试。当然,不排除存在第三方代理做隐秘蒸馏的可能,但目前没有任何证据能支撑对这些实验室的点名指控。
最后,t3dotgg提出了一系列无法回避的问题:用包含Claude代码的GitHub仓库训练模型算不算蒸馏?分享Claude输出到互联网是否违规?抓取公开代码是否属于能力复制?Cursor这类模式到底算不算攻击?边界究竟在哪里?
他指出,更讽刺的是,Anthropic自身模型本来就是用互联网公开数据训练出来的,而其公司目前也正因版权和数据问题在法律层面承受压力。在这种背景下,再宣称“我们抓互联网理所当然,别人用我们就是邪恶危险”,本身就显得极为矛盾。
与此同时,t3dotgg指出,正是因为头部公司大规模爬取并封锁数据源,导致今天可公开获取的高质量数据越来越少。即便假设Anthropic的指控全部成立,这种数据匮乏的局面本身也与其商业行为密切相关。
在同一背景下,Amodei认为,数据正在变得更“动态”:在数学或Agentic编码等强化学习环境里,训练更像是做模型实验,让模型在环境中试错生成经验;这既可以被称为合成数据,也可以理解为环境交互产生的数据。随着这种模式权重上升,静态互联网数据的重要性相对下降,但数据仍然关键,基础数据仍大量存在于开放网络,而当需要对特定语言或场景做优化时,对应语料的重要性反而会上升。
“富人说资本主义不好”?
Anthropic对安全的狂热有目共睹,这次Amodei回应了是否在以“安全”为名,实现商业利益的质疑。
Amodei的回答并不明确,核心是“看行动”。他表示,早在2022年,Anthropic就已开发出早期版本的Claude(Claude 1),时间甚至早于ChatGPT的发布。当时,公司具备率先推出产品的条件,但最终选择暂缓发布。原因在于,管理层担心过早推出强力模型,可能引发行业“军备竞赛”,压缩安全研究和治理体系建设的时间窗口。
“那是一个极为特殊的时间节点:公司能够预见模型能力的潜力,其他头部机构也同样具备类似判断。因此,Anthropic选择主动放弃这一窗口期。这一决定并非秘密,而是公开可查、有据可循。直到后来,竞争对手率先发布产品、行业竞赛正式启动,Anthropic才决定跟进推出产品。”
他认为,正是这一阶段性的克制,为行业争取了数月缓冲期,有助于安全体系的逐步完善。不过,这一选择也带来了明显的商业代价。公司因此可能错失了在消费级AI市场建立领先优势的关键机会。
为了进一步说明“不是为了自己获利”,Amodei又补充了其他案例。他提到,Anthropic曾在芯片政策等议题上公开表态,甚至因此让部分供应商感到不满;在AI政策与监管问题上,公司也多次公开表达与政府不同的观点。这些选择短期内并不会带来明显商业回报,反而会增加合作摩擦与经营复杂度。
基于这一连串行动,他认为把Anthropic的立场解释为“为了自身利益量身打造的安全叙事”,整体上并不自洽。公司希望外界不要只听宣言,而是把这些决策放在一起看,再做判断。
Nikhil将这种立场类比为“富人批评资本主义”。对此,Amodei回应称,如果财富阶层真的认为资本主义存在根本问题,最直接的方式应当是停止财富积累,而不仅仅停留在言辞层面。但他的立场并非“反对AI”,而是强调理性推进。
在他看来,更贴切的类比并非“反对资本主义”,而是“支持资本主义但主张有效监管”。AI产业同样需要在创新与约束之间寻找平衡。只有在风险得到有效管理的前提下,技术红利才能长期释放。
“为了更大的善”,是不是行业惯用话术?
谈到“少数人领导高速增长公司、并可能在不远的未来驱动经济大部分”的权力集中问题,Amodei也表达了不安。他说自己不止一次公开表示,对这种权力高度集中感到不舒服,而且这种集中很多时候几乎是一夜之间发生,甚至像“意外”一样突然。
基于这种担忧,他将自己的一部分工作理解为:在技术自然演进的过程中,尽力维护一种权力制衡。他给出了两个抓手,一是,Anthropic设立了特殊治理结构“长期利益信托”(Long-Term Benefit Trust),该结构拥有任命董事会多数成员的权力,并由与财务利益无直接牵连的人组成,用以对单一决策者形成制衡;二是,他认为政府必须在这一过程中扮演角色,并主张更主动、但也更理性的监管框架。
当Nikhil进一步追问“为了更大的善,而不是为了股东、收入和利润”是不是行业惯用话术时,Amodei没有直接回答“是”或者“否”,而是绕了个弯子:“Anthropic从创立之初就尽量少做承诺,但做出的承诺会尽力兑现”,之后细数了公司做过的事情。
“外界当然可以编造各种阴谋论,但我可以坦诚地告诉你:公开说我们自己造的模型可能有危险,无论别人怎么解读,这从来不是一个有效的营销策略。”Amodei继续道,“我们在政策上也经常公开表达不同意见,甚至与包括美国政府在内的官方立场不一致。我们说过‘不同意’,当其他公司和政府在说‘不该监管’时,我们反而主张‘应该监管’。”
他承认这些立场在商业上会拖累公司,但公司认为这是正确的事。“公开反对政府、反对同行并不容易,等于把脖子伸出来让人评判。所以,我们做了很多我认为真正体现‘言行一致’的事情。至于其他公司,我不便替他们发言。的确可能有人说得很好听,但并未当真践行。我建议,判断一家公司,不要只看他们怎么说,更要看他们怎么做。”
“coding会先消失”
在同一场访谈里,Amodei依然毫不避讳地谈起AI对软件工程的冲击,直白道:“coding会先消失,或者说coding会先被AI模型干掉。” 更广义的软件工程会慢一些,但端到端自动化的软件开发最终仍会发生。
不过,他又强调“人类不会完全出局”。一些关键环节仍将长期存在:产品设计、理解真实用户需求、定义问题、以及管理和协调多个AI系统协作的能力。这些工作更依赖人类判断与组织治理,短期内很难被彻底替代。
他进一步提出“比较优势效应”:在高度自动化环境中,即便人类只负责5%的关键任务,也会因为AI承担了剩余95%的执行工作,而使个人产能被极大放大,出现数十倍的效率提升。虽然当自动化逼近99%时难度会显著上升,但在相当长的一段时间里,“比较优势区间”依然足够宽广,足以容纳大量新的职业形态与分工结构。
基于这一判断,他更看好两类方向:一类是AI产业链的上游与配套供给,例如半导体等兼具物理世界与传统工程特征的领域;另一类是高度以人为中心的职业,并与现实世界场景深度结合。
他最后把建议收束到一个更底层的能力上。在“几乎可以生成一切内容”的时代,批判性思维会变得更加稀缺且关键。他特别担忧生成式图像和视频带来的真假难辨问题,并将其视为Anthropic对视觉生成模型保持谨慎的原因之一。在这种环境下,个人能否保持“别被忽悠”的判断力,能否识别虚假信息、避免形成错误信念、避免被骗钱,将直接影响其长期发展。Amodei认为,这种现实判断力与信息免疫力,可能会成为未来的关键竞争力。
整个事件在开发者社区中也引发了广泛讨论,这场围绕技术、安全与商业竞争的AI舆论战,其背后的动机与真相或许比表面更加复杂。
参考链接: