找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3054

积分

0

好友

404

主题
发表于 2 小时前 | 查看: 3| 回复: 0

Anthropic 最近几个月原本处在一段少见的高光期。

一方面,Claude Code 和 Claude Cowork 的能力提升,明显拉高了外界对 Anthropic 工程能力的评价;另一方面,Claude 一直是用户心中“最会写”的模型之一。甚至在与美国国防部相关争议引发关注后,Claude 一度冲上 App Store 榜首,热度和品牌势能都达到新高。

但这种势头,很快被 Opus 4.7 的发布打断了。

在 Opus 4.6 已经被不少用户质疑被“削弱”之后,原本承担“修复口碑”期待的 Opus 4.7,并没有带来明显的升级感。相反,越来越多用户反馈称,新版本不仅没有更强,反而在准确性、稳定性、成本控制和实际可用性上暴露出更多问题。不少用户并没有感受到“升级的快乐”,反而因各种糟糕体验想回到 4.5 版本。

花更多的钱,换更差的体验

发布至今,社交媒体上已经有不少关于 Opus 4.7“翻车”的案例。

一条 Reddit 帖子标题为“Claude Opus 4.7 是一次严重退步,而不是升级”,获得了 2300 个点赞;而在 X 上,有用户表示 4.7 并没有比 4.6 更好,这条内容获得了 1.4 万点赞。这样的吐槽帖不在少数。

Reddit 用户吐槽 Opus 4.7 的截图

一些问题看起来甚至很基础。

在一个常见但非正式的 AI 测试中,Opus 4.7 甚至表示“strawberry”这个单词里有两个字母 P。还有用户截图显示,模型承认自己没有进行交叉验证,因为“有点懒”。还有用户发现,Opus 4.7 在帮他们修改简历时,会“编造”新的学校或姓氏。不少人直言,这一版本“变笨了”。

Opus 4.7 关于洗车问题的错误回答截图

经典的洗车问题,Opus 4.7 作为公认的顶尖模型也没有答对。

有人猜测问题出在模型的推理机制上。Anthropic 引入了一个新的“自适应推理”功能,让模型自行决定何时进行更长或更短时间的思考。但有用户表示,他们“根本没法让 Opus 4.7 好好思考”,甚至认为这个机制“削弱了性能”。

对此,Claude Code 的作者 Boris Cherny 回应称:“这种说法不准确。自适应思考让模型自行决定何时思考,整体效果更好。”

不过,在一些具体问题上,Anthropic 也承认还有改进空间。例如,有用户在 Claude 官网反馈自适应推理的问题后,一名产品经理回应称,团队正在“加速内部调优,很快会有更新”。

Anthropic 产品经理在 X 上回应用户反馈的截图

《Pragmatic Engineer》作者 Gergely Orosz 曾晒出截图,显示 Claude 不知道 OpenClaw 是什么。Cherny 询问他是否开启了“网页搜索”功能,结果并没有开启,但 Orosz 表示自己此前也从未动过这个设置。Orosz 还指出,这个模型“出乎意料地具有对抗性”,最终“放弃使用”,回到了 Opus 4.6。

还有用户反馈,模型会拒绝完成一些编码任务,或者对简单图片触发安全警告。

用户吐槽 Opus 4.7 体验糟糕的推文截图

Opus 4.7 的另一个争议点是成本。

新模型采用了新的 tokenizer,这意味着同样的输入,token 消耗大约会比旧模型高出 1.0–1.35 倍。有用户表示,在发布后,Claude Pro 甚至问三次问题就会触及上限。还有人发现,在 GitHub Copilot 中,Opus 4.7 的价格一度达到 7.5 倍溢价(直到 4 月底)。

“那我还是先用 4.6 吧。”有用户这样评论。随后,Cherny 表示,Anthropic 已提高订阅用户的使用额度作为补偿。

Boris Cherny 解释 Opus 4.7 成本增加的推文截图

一些对 Opus 4.7 不满的用户试图回到旧版本,例如 4.5,但却发现它已经下线,Reddit 上甚至出现了大量自称“心碎”“哀悼”的 4.5 用户。

这种情况并不罕见。此前 OpenAI 下线 GPT-4o 时,也曾引发类似的用户反弹,甚至有用户开始“讨价还价”:“请恢复 Opus 4.5 的支持,”一位 Reddit 用户在 Anthropic 帖子下留言,“4.6 用不了,4.7 的消耗像核反应堆一样。”

对于这个问题,Anthropic 并未作出回应。

不过,也并不是所有用户都持负面态度。有用户表示:“Opus 4.7 的 token 消耗确实离谱,但它真的很强。”一些业内人士表达了认可。创业者 Jeremy Howard 称,这是“第一个真正‘理解我在做什么’的模型”;YC CEO Garry Tan 表示自己在 OpenClaw 中使用它;Cursor 设计师 Ryo Lu 则用它来做规划。

面对争议,Anthropic 也在持续调整。“昨天大家首次试用 Opus 4.7 时可能遇到的许多 bug 现在都已修复,”Anthropic 员工 Alex Albert 周五写道。“感谢大家的耐心等待。”

关于 Opus 4.7 问题修复和后续改进的推文截图

但到目前为止,用户体验并没有明显改善,吐槽声依然不止。

一天前,有用户“MurkyFlan567”晒出了分别用 Opus 4.7 和 4.6 编程 3 天后的实际对比:

Opus 4.7 与 4.6 的性能指标对比截图

在该用户的使用场景中,Opus 4.7 一次就做对的比例比 4.6 更低,大概是 74.5%,而 4.6 是 83.8%,同时每次修改平均需要的重试次数几乎翻倍。

Opus 4.7 每次调用生成的内容也明显更多,大约是 800 tokens,相比之下 4.6 是 372 tokens,这也让成本明显更高:单次调用成本约 0.185 美元,4.6 是 0.112 美元。

如果按任务类型拆分来看,4.7 在编码和调试上的表现都更弱:编码的一次成功率从 84.7% 降到 75.4%,调试从 85.3% 降到 76.5%。该用户表示,4.7 每轮调用使用的工具更少,几乎不怎么把任务分配给子 agent。目前不确定这是风格变化,还是样本量导致的偏差。

是 Claude Code 把模型带笨了?

对于使用 Claude Code 的开发者来说,感受更加明显。

有开发者反馈,Claude Code 对原本能够完成的任务变得更加迟疑,甚至会在电脑排障、应用调试这类相邻任务上直接以“超出专业范围”为由拒绝继续,而 OpenAI 的 Codex 却能在几分钟内解决同类问题。

而根据 Margin Lab 的内部基准测试结果,自 3 月以来,相关模型的加权平均成绩从 57% 下降至 55%,且呈现持续下滑趋势。测试方式是用 Claude Code 跑 SWE-bench,这个结果被一些人视为 Claude 编程能力在真实工作流中持续走弱的信号。

更激烈的批评来自 AMD 的 AI 团队。其报告基于 6800 份 Claude Code 会话文件、23.5 万次工具调用和超过 1.7 万个 thinking blocks 的量化分析,结论是,Anthropic 推出的“思考内容遮蔽”(thinking content redaction)与复杂长会话工程任务中的质量回退高度相关。报告认为,随着 thinking 被逐步隐藏,模型不只是对用户“变得更不透明”,其内部思考深度本身也在下降,相关指标显示 thinking 长度较此前下降了 73%。

Thinking Redaction 与质量回归时间线匹配的图表

这直接带来一系列行为变化。报告显示,原本用于防止模型偷懒的机制,从几乎不触发,上升到每天约 10 次;用户在提示词中表现出的挫败感显著增加;模型逃避责任、需要纠正的情况明显翻倍。

更重要的是,Claude Code 的工作方式正在从“先研究再编辑”转向“先动手修改再说”。此前模型的 read-to-edit 比例约为 6.6,即读取行为远多于编辑行为,如今该比例已降至约 2,说明模型更少阅读上下文,却更频繁直接改动代码。

在很多开发者看来,这种变化比“模型偶尔答错”更危险,因为它意味着 Claude Code 正在从一个谨慎的工程助手,变成一个更冲动、更容易误改的自动化系统。

“官方名义上都是为了防止蒸馏,他们确实‘做得很好’。但问题在于,一个已经被搞得像做了脑叶切除手术一样的模型,还有谁会想偷它?”知名博主 Theo - t3․gg 评价道。

Theo - t3․gg 认为,让 Claude 全产品线持续变笨、变懒的原因是不单纯在模型上,而在于 Anthropic 的工程实现能力没有跟上。

Anthropic 工程能力不过关

提示词、Harness、API与模型关系的简化流程图

Theo - t3․gg 认为,大量回退并不一定来自模型参数本身,而可能来自 harness,也就是提示词、系统规则、工具调用逻辑和产品封装层的综合设计。

按照这一说法,用户发给 Claude Code 的并不只是自然语言请求,还包括系统提示、可用工具列表、产品功能说明以及一整套额外上下文。任何一层设计不当,都会让模型表现变差。

一个典型例子是,Claude Code 强制要求模型在编辑文件前必须先读取文件内容。但在一些场景中,模型搜索到了文件,却因为 harness 不把“搜索”视为“读取”,导致更新操作连续失败,不得不额外发起读取请求后再重试。这种机制不仅浪费 token、增加 API 调用次数,也把无意义的失败步骤写进了上下文,进一步污染了后续推理过程。

类似问题在第三方基准测试中也被放大。Matt Mau 的测试结果显示,同样的模型放进不同 harness,表现会明显不同。其中,Opus 在 Claude Code 中的表现比在 Cursor 中低约 15%。在 Terminal Bench 上,Claude Code 也是使用 Opus 时表现最差的 harness 之一,得分仅 58%,而 Forge Code、Cappy 等其他 harness 可达到 75% 至 82%。

不同模型在不同 Harness 下规划基准测试结果截图

除了 harness,API 层也被认为是重要变量,其中包括内容过滤更激进、请求路由变化、工具调用链条更复杂,以及 tokenizer 的重大调整。

Anthropic 已确认,Opus 4.7 使用了新的 tokenizer,官方称其可以改善文本处理方式,但代价是相同输入会映射为更多 token,大约增加 1.0 到 1.35 倍。另有实测认为,真实增幅可能更接近 1.45 至 1.47 倍,尤其在技术文档和 Claude MD 文件这类场景中更为明显。

Theo - t3․gg 分析称,这意味着,在 Claude Code 这类高度依赖长上下文的产品中,开发者将更快撞上 token 限制,同时上下文本身也会变得更臃肿。由于模型处理的信息量被放大,历史中的无效内容、失败调用和额外系统提示更容易堆积,进一步加剧所谓的“上下文腐烂”(context rot)。这种调整本身就足以显著影响用户体验,而更具争议的一点是,Anthropic 竟然在 4.7 这种小版本更新中引入了如此大幅度的 tokenizer 变化。

底层算力调度,则是第三个被反复提及的变量。

与许多 AI 公司不同,Anthropic 并未完全押注 Nvidia GPU,而是同时使用 AWS 的 Trainium、Google TPU 以及部分 Nvidia GPU。这意味着,同一位用户在同一段 Claude Code 会话中的不同工具调用,可能被分发到不同云平台、不同芯片架构上执行。由于每次工具调用后都会重新发起 API 请求,复杂任务往往不是一次推理完成,而是由一连串请求拼接而成。理论上,这使得同一个任务流程中,不同步骤可能面对不同的服务环境,从而带来不同质量波动。

这一点也与 Anthropic 去年 9 月的一份事故复盘形成呼应。那份技术报告披露,去年 8 月至 9 月初,Claude 曾因三个基础设施 bug 发生间歇性质量退化。其中包括上下文窗口路由错误、负载均衡改动放大问题、输出损坏,以及 top-k 计算异常。引人关注的一点是,一部分 Sonnet 请求曾被错误路由到“100 万 token 上下文版本”服务器,而 Anthropic 自己也承认,这一版本在非超长上下文场景中的表现更差。

这让外界对 Anthropic 近期默认推广 100 万 token 上下文窗口的策略更加敏感。根据 Theo - t3․gg 推测,Anthropic 已将 Opus 4.6 和 Sonnet 4.6 的完整 100 万上下文窗口设为更普遍的默认能力,并且取消了长上下文额外溢价。

他带有阴谋论色彩地解释道,如果 Anthropic 想把部分流量从 Nvidia GPU 转向 AWS Trainium 和 Google TPU,那么推广 100 万上下文窗口,可能正好是一个有效的流量引导手段。因为更大的上下文窗口通常意味着不同部署方式、不同硬件需求,也可能对应不同质量表现。

虽然这一判断缺乏直接证据,但 Theo - t3․gg 指出,Claude Code 用户如今很难直接在常规界面里切换上下文窗口大小,而禁用 100 万上下文通常需要手动改环境变量。这让“默认更大的上下文,带来默认更差的体验”成为不少开发者的切实感受。

通过上述分析,Theo - t3․gg 得出结论:开发者感知到的“Claude 变笨”,可能并非单一原因导致,而是多层问题叠加的结果。这里面既有用户自身预期不断上升后的心理落差,也有真实的工程问题,包括 harness 污染上下文、API 过滤和路由策略变更、thinking redaction 影响长会话推理、tokenizer 改动放大 token 消耗,以及多硬件平台部署带来的不确定性等问题。

“你就是被坑了”,谷歌来抢市场

Theo - t3․gg 指出,相比之下,OpenAI 及 Codex 并未遭遇同等规模、同等持续性的“变笨”争议。

他曾询问开发者是否明显感受到 Codex 或 OpenAI 模型也存在类似退化,多数反馈认为偶尔有短时波动,但没有像 Anthropic 这样长期、系统性的持续讨论。甚至 OpenAI 方面还明确表示,他们确实会公开某些接口层问题的调查结果,但不会在模型发布后频繁改动模型本身或 thinking budget,而是更强调保持发布时的稳定状态。

“我一点都不羡慕 Anthropic 以及那些要去排查这些问题的人,因为覆盖面实在太大了。而且坦白讲,整套东西看起来像是被一群非常不靠谱的人拼出来的。Anthropic 的工程文化出了很大问题,而这些问题已经直接导致结果也变得一团糟。”Theo - t3․gg 直言,“如果他们真的想做出可靠的基础设施和软件,那就必须从底层开始彻底重想一遍。以现在的状态,我们无法信任 Anthropic 推出的这些东西。”

现在的 Anthropic,一边持续推出新能力、新工具和新封装,一边却没有给出足够透明的解释,也没有拿出足够稳定的工程实现,最终让用户在每月支付高额订阅费用的同时,得到的结果越来越差。

“如果你觉得自己被坑了,那不是错觉,你就是被坑了。你这几个月每个月付 200 美元订阅费,结果拿到的东西却越来越少、越来越差。这根本不可接受。”Theo - t3․gg 说道。

值得注意的是,今天 The Information 报道称,谷歌成立突击队以改进编码模型(因为 Gemini 远不如 Claude 4.5+、GPT 5.4 等)。这意味着有深厚工程经验的谷歌也开始奋力争夺 AI 编程市场。

据知情人士透露,Brin 与谷歌 DeepMind 首席技术官 Koray Kavukcuoglu 均直接参与了这支攻坚团队的工作,足见谷歌高层对其的重视程度。在最近的一份备忘录中,Brin 向谷歌 DeepMind 员工表示,他们必须全力转向、奋起直追 AI 智能体(AI agents)。布林写道:“为了赢下这场最后的冲刺,我们必须紧急弥补智能体执行能力的差距,让我们的模型成为代码的‘主力开发者’。”

Gemini 3 已经证明了谷歌的追赶能力,模型编程能力叠加工程经验,让谷歌有潜力动摇 Anthropic 的核心编程优势。

一边拓展 Claude 能力,一边加约束

Opus 4.7 发布后,资深开发者 Simon Willison 对比了对比了 Opus 4.6 和 4.7 之间的 git diff。通过 Opus 4.7 的系统提示词变化,也体现出了 Anthropic 正在调整 Claude 的产品角色。

首先,“开发者平台”现在更名为“Claude 平台”。

系统提示词中提到的 Claude 工具列表,现在包括 Claude in Chrome(一个可以自主与网页交互的浏览智能体)、Claude in Excel (一个表格智能体)、Claude in PowerPoint ( 一个幻灯片智能体)。Claude Cowork 可以把这些都当作工具来使用,其中,Claude in PowerPoint 在 4.6 版本中并未出现。

其次,儿童安全部分被大幅扩展,并被包裹在一个新的 <critical_child_safety_instructions> 标签中。 特别值得注意的一点是: “一旦 Claude 因儿童安全原因拒绝某个请求,那么在同一对话中的所有后续请求,都必须以极高的谨慎态度处理。”

另外,官方也在让 Claude 变得不那么“粘人”:“如果用户表示他们准备结束对话,Claude 不会再试图挽留用户或引导其继续互动,而是尊重用户停止的请求。”

新增的 <acting_vs_clarifying> 部分包括:

  • 当用户请求中只缺少一些次要细节时,用户通常希望 Claude 直接给出一个合理的尝试结果,而不是先被反复追问。只有在确实无法回答的情况下(例如引用了不存在的附件),Claude 才会先提问。
  • 如果存在可以解决歧义或补充信息的工具(例如搜索、定位用户位置、查看日历、发现可用能力等),Claude 应优先调用工具来解决问题,而不是让用户自己去查。
  • 一旦 Claude 开始执行任务,就应该 完整地完成答案,而不是中途停止。

Willison 还注意到,Claude chat 现在似乎有了一个“工具搜索机制”。

根据 API 文档以及 2025 年 11 月的一篇文章描述:在断定自己“不具备某种能力”(比如访问用户位置、记忆、日历、文件、历史对话或外部数据)之前,Claude 会先调用 tool_search 来确认是否存在相关但尚未启用的工具。只有在 tool_search 确认没有匹配工具之后,Claude 才可以说“我无法访问 X”。

此外还有新的约束,鼓励 Claude 减少冗长表达:Claude 会保持回答聚焦且简洁,避免用过长的回复让用户产生负担。即使需要加入免责声明或补充说明,也会尽量简短,把重点放在核心答案上。

还有一些内容在 4.6 中存在,但 4.7 版本中被移除。 Willison 猜测,很可能是因为新模型已经不再出现这些问题,比如 Claude 避免使用星号中的动作或表情(除非用户明确要求这种风格)、Claude 避免使用 “genuinely”“honestly”“straightforward” 等表达。

Opus 4.7 中新增了一个关于“进食障碍”的部分(此前没有明确提及):“如果用户表现出进食障碍的迹象,Claude 不应在对话中提供具体的营养、饮食或运动建议,包括任何具体数字、目标或步骤。即使这些内容是出于帮助用户建立健康目标或提醒风险,也可能会触发或强化不良倾向。”

针对一种常见攻击(诱导模型对争议问题给出“是 / 否”答案),系统提示词也增加了防护(在 <evenhandedness> 部分):“如果用户要求 Claude 对复杂或有争议的问题给出简单的‘是或否’(或单词式回答),Claude 可以拒绝这种简化回应,转而给出更有层次的解释,并说明为什么不能用简单答案回应。”

Claude 4.6 中曾有一段特别说明: “Donald Trump 是现任美国总统,并于 2025 年 1 月 20 日就职。”这是因为在此前的知识截止时间下,模型可能会错误否认这一点。Willison 发现,在 4.7 中,这段内容被移除,反映出模型的知识截止时间已更新到 2026 年 1 月,并具备更可靠的事实认知。

要真正理解 Claude chat UI 的能力,模型的“工具描述”反而是更关键的,但 Anthropic 并未给公开信息。Willison 则通过对话获得了一些信息。

他直接问 Claude:“列出你所有可用的工具,并提供完整的工具描述和参数。”根据回答结果,下面工具列表与 Opus 4.6 相比并没有发生变化:

  • attachment_content
  • google_search
  • open_url
  • tool_search
  • user_location
  • user_memory
  • user_calendar

参考链接:
https://www.businessinsider.com/anthropic-claude-opus-4-7-backlash-tokens-2026-4
https://www.youtube.com/watch?v=KFisvc-AMII&t=44s
https://simonwillison.net/2026/Apr/18/opus-system-prompt/

关于 Claude 模型的这次风波,也引发了许多开发者在社区中的深入讨论。如果你想了解更多关于 AI 模型工程化实践、技术选型或行业动态,欢迎到 云栈社区 与大家一起交流分享。




上一篇:杂谈:从手机到汽车,雷军“真诚”人设的流量困境与小米转型之路
下一篇:商汤Solution Agent实战解析:如何用智能体自动化生成10万字投标方案
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-22 03:01 , Processed in 1.265677 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表