近日,Anthropic 切断了第三方框架(例如被戏称为“龙虾”的某些代理工具)通过 Claude 订阅服务的调用通道,这一举措在行业内引发了广泛讨论。小米大模型负责人罗福莉(Fuli Luo)随即在社交媒体上发表了自己的看法。她指出,许多第三方框架由于上下文管理效率低下,其产生的 Token 消耗可达原生框架的数十倍,这导致了基于订阅制的服务出现巨额亏损。因此,Anthropic 此举实质上是为整个业务“止损”。
罗福莉同时透露,小米的 MiMo 平台最新上线的 Token Plan 支持第三方接入,并采用了按量计费的模式。她强调,全球的计算能力增长已经难以跟上智能代理(Agent)所产生的 Token 需求,行业的出路并非一味降低 Token 价格,而在于高效的框架与优质模型之间实现“协同进化”。她认为,短期的成本阵痛将倒逼第三方优化其技术栈,从长期来看有利于整个生态的健康发展。

以下是她的推文内容翻译:
“前两天,Anthropic 切断了第三方代理框架使用 Claude 订阅服务的权限——这并不意外。三天前,MiMo 推出了 Token 方案,这套设计是我实打实投入精力打磨的,我也坚信,这是在算力分配与智能代理框架开发上一次认真的尝试。结合这两件事,我有一些思考:
-
Claude Code 的订阅制是一套设计精良、算力分配均衡的体系。我的判断是:它并不盈利,甚至可能在亏损,除非它们的 API 利润率达到 10–20 倍,而我对此深表怀疑。我无法精确计算第三方框架接入带来的损失,但我仔细研究过 OpenClaw 的上下文管理机制——做得很差。在单次用户查询中,它会把多轮低价值工具调用拆成独立的 API 请求,每一次都携带超长上下文(通常超过 10 万 Token),即便命中缓存也依然浪费,极端情况下还会拉高其他请求的缓存未命中率。单条查询最终产生的请求数,会比 Claude Code 原生框架高出数倍。换算成 API 成本,真实开销可能是订阅价格的几十倍。这不是简单的缺口,而是巨大的窟窿。
-
OpenClaw、OpenCode 这类第三方代理框架依然可以通过 API 调用 Claude,只是不能再蹭订阅服务了。短期来看,这类代理用户会明显感受到成本压力,费用很可能直接飙升数十倍。但这种压力恰恰会倒逼这些框架优化上下文管理,最大化提示词缓存命中率以复用已处理上下文,减少无意义的 Token 消耗。阵痛最终会转化为工程上的规范。
-
我想奉劝各大模型厂商:在没想清楚如何为编程类服务定价、避免巨额亏损之前,不要盲目打价格战。把 Token 卖得极其便宜,同时对第三方代理框架完全敞开大门,对用户看似友好,实则是个陷阱——正是 Anthropic 刚刚跳出的那个陷阱。更深层的问题在于:如果用户耗费精力使用劣质代理框架,面对极不稳定、推理缓慢的服务,以及厂商为压缩成本而降级的模型,最终却发现什么任务都完不成——这对用户体验和用户留存都不是健康的循环。
-
再说 MiMo Token 方案:我们支持第三方代理框架,采用 Token 额度计费,逻辑和 Claude 新推出的超额付费包一致。因为我们追求的是长期、稳定地提供高质量模型与服务,而不是让用户冲动付费后就弃之不用。”
从更宏观的视角来看,她认为:全球算力供给已经跟不上智能代理产生的 Token 需求。真正的出路不是更便宜的 Token,而是协同进化——即「更高 Token 效率的代理框架」乘以「更强、更高效的模型」。Anthropic 此举无论初衷如何,都在客观上推动整个生态(包括开源与闭源)朝着这个方向发展,这或许是件好事。她总结道,智能代理时代,不属于消耗算力最多的玩家,而属于懂得善用算力的玩家。
她还指出了一个更严重的技术问题:许多第三方代理框架在接近上下文长度上限时,会每执行 3 步就对工具返回结果进行压缩,这会导致缓存命中率变得非常低。

这一系列分析与观点,不仅是对单一事件的点评,更是对当前人工智能应用层,特别是 Agent 领域所面临的核心矛盾——无限增长的需求与有限的计算资源——的一次深刻洞察。对于开发者和技术决策者而言,理解这些底层逻辑,或许比追逐短期的廉价资源更为重要。关于如何构建更高效的智能体系统,也欢迎在 云栈社区 与其他开发者进行深入探讨。
|