Claude模型近期出现的性能下降问题,已成为许多重度用户讨论的焦点。率先发现这一变化的,是AMD的高级总监Stella Laurenzo。
在对近7000份会话日志进行深入分析后,Stella指出,当前的Claude在处理复杂任务时,能力似乎出现了明显下滑。

第三方的基准测试数据似乎也印证了这一观点。原本在榜单上名列前茅的模型,在几周时间内排名大幅跌落。
许多付费用户感到困惑:支付了相同的订阅费用,为何得到的却像是“性能缩水”的版本?
Claude性能下降的证据
前文提到的Stella,对Claude Code的运行数据进行了详细审计。调查覆盖了6852份会话文件、17871个“思考”块以及超过23万次工具调用。

分析结果显示,自今年2月开始,模型的推理深度出现了显著下降。在实际应用中,它在处理复杂工程任务时变得不那么可靠,时常出现逻辑断层或无法理解复杂指令的情况。
以往那个愿意深入钻研难题的AI助手,现在似乎变得“敷衍”,倾向于采用最简单的修补方案,甚至会在任务中途莫名停止。
这种退步在第三方基准测试BridgeBench中体现得更为直观。根据测试,Claude Opus 4.6的准确率在短时间内从83.3%下降至68.3%。
由于准确率大幅下滑,它在测试榜单上的排名也从第2名直接跌至第10名。

针对这些质疑,Anthropic的负责人Boris Cherny承认,当前模型默认启用的是“努力程度”(effort)为85的“中等努力”模式。
官方的解释是,这一调整是为了在响应速度与计算成本之间取得平衡,为大多数用户提供更快的体验。

然而,在许多重度用户看来,这种为控制成本而限制模型智能水平的做法,实质上是一种变相的性能削减。
此外,用户界面在2月的一次更新中,默认隐藏了模型具体的思考过程,这使得许多习惯观察AI推理逻辑的用户感觉它“没有在认真思考”。
一些技术细节也透露出成本控制的痕迹。有开发者发现,提示词缓存的持续时间从1小时被缩短到了仅5分钟。
这意味着在较长的对话会话中,只要用户稍有停顿,之前生成的缓存便会过期,从而导致token消耗速度显著加快。
这种性能表现与计费规则的双重变化,让需要长时间处理复杂代码任务的开发者感到十分困扰。
企业版套餐迎来定价模式调整
更让企业用户措手不及的是,Anthropic对其企业级产品的计费规则进行了大幅度调整。原先固定价格、包月无限使用的模式已被拆分。
新的Claude Enterprise计费方案更类似于流量计费模式:用户除了支付每月20美元的基础费用外,其余的计算开销均需根据实际使用量另行结算。
这种计费方式的转变,对使用量大的用户而言,无疑增加了成本压力。过去每月支付固定200美元费用的公司,在新规则下可能会发现账单金额翻倍,部分团队的开支甚至可能增长至原来的三倍。
Anthropic选择在此时调整计费策略,主要源于巨大的成本压力。官方人员表示,模型推理成本在过去一年中增长了三倍,为了维持运营,公司不得不从高频使用场景中寻找盈利空间。

甚至有消息称,由于算力资源紧张,Anthropic开始限制订阅用户调用某些特别消耗资源的Agent工具(如OpenClaw)。
面对Anthropic的“涨价”与“降智”风波,竞争对手OpenAI迅速推出了100美元档位的Codex订阅服务。这一价格策略,或许意在吸引那些对现有服务不满的优质客户。开发者们常在各类开发者社区讨论这些行业动态和定价策略。
Claude Opus 4.7即将发布
据相关爆料,Anthropic最快可能在本周发布新一代旗舰模型Claude Opus 4.7。这款新模型目前据称已准备就绪,预计将作为产品线的最新性能标杆推出。
同时曝光的还有一款AI设计工具,它允许用户通过自然语言指令直接生成网页、演示文稿、落地页或产品原型。该工具旨在降低使用门槛,无论是开发者还是非技术用户,都能通过描述需求来完成设计工作。
受此消息影响,Adobe、Wix和Figma等传统设计软件公司的股价在报告发布后的几小时内下跌了超过2%。这种尚未正式发布就已震动市场的态势,为后续发展留下了充足的想象空间。
参考链接:
[1] https://venturebeat.com/technology/is-anthropic-nerfing-claude-users-increasingly-report-performance
[2] https://www.theinformation.com/articles/anthropic-changes-pricing-bill-firms-based-ai-use-amid-compute-crunch
[3] https://www.theinformation.com/briefings/exclusive-anthropic-preps-opus-4-7-model-ai-design-tool
对于AI模型服务商在性能、定价与商业策略上的平衡,你怎么看?欢迎在云栈社区分享你的见解。