找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5397

积分

0

好友

698

主题
发表于 昨天 20:59 | 查看: 5| 回复: 0

一夜之间,全网被一张由飞舞蝴蝶拼成的「5」字刷屏了。这张图的主角,正是 Anthropic 刚端出的最强模型——Claude Fable 5。

Anthropic 官宣,这是他们第一款为通用场景做好安全处理的 Mythos 级模型,能力超过此前公开发布的任何一款。紧接着,官方又宣布将所有用户的 5 小时和每周速率限制全部清零,让大家「尽情享受 Fable 5」。开发者这边,也一夜变天。

用 Claude Code 团队自己的话说:过去,他们盯的是 Claude 有没有正确完成工作;现在,他们盯的是 Claude 有没有在做正确的事

团队成员 Thariq 认为,Fable 是模型领域的一次重大突破,将改变人们与 Claude 的协作方式,有了这样的利器加持,「是时候更有雄心了」。他还总结了团队眼中 Fable 5 带来的变化——

三件事被改写了:你怎么给它交代任务、你怎么验收它、你一个人能同时指挥多少个它。

从盯过程的监工到定标准的产品经理

这轮升级的焦点,并不是跑分。

Anthropic 给 Claude Code 的定位是「智能体编程环境(agentic coding environment)」。它能读文件、跑命令、改代码,在你盯着、打断、或者干脆离开的时候,自己把问题推进下去。这才是关键:它能自己干活了,你还盯什么?Claude Code 官方最佳实践里提到这样一句话:

如果你不给 Claude 一个能跑的检查项,那你自己就会变成那个验证循环。每一个错误,都得等你亲眼发现。

这句话的意思是,过去你是监工,蹲在屏幕前看它一步步写,写错一行改一行。现在不一样了。你的活,从「逐步指挥」变成了「定义目标、给够上下文、立好验收标准」。

「给目标、给上下文」听起来不复杂,落地却不容易,官方最佳实践也给出了方向:别一上来就让它写代码,先让它探索、再让它计划、最后才动手,免得它埋头解决了一个错的问题。还有关键一点——用刚才提到的 AskUserQuestion,让 Claude 先反过来采访你,把你没想清楚的实现细节、边界情况、取舍一条条问出来,最后落成一份 SPEC.md

不要担心这些准备工作浪费时间。当模型能力足够强,能够自主干活,把需求说清楚,比你盯着它写代码就要值钱得多了。这正是 Claude Code 团队身上发生的事:从验证「有没有做对事情」,到验证「有没有在做对的事情」。

放手很爽,如何才能信任

放手听起来很爽,但凭什么信任 Claude?

它最让人头疼的一点,是错了还一脸笃定。而且模型越强,输出越像模像样,错起来越难被一眼看穿。Claude 会在「看起来做完了」的时候停下来,可这恰恰是最危险的信号。没有一个能跑的检查,「看起来完成」就成了 Claude 唯一的判断依据,到头来可能就成了你的麻烦。

官方的解法是:给它一个能判断「通过」或「失败」的东西。比如一套测试、一个构建的退出码、一段把结果和设计稿做对比的截图。它干活、跑检查、读结果、再改,直到检查通过——这个循环自己就闭环了。

更进一步,是 Claude Code 里的 /goal 命令。你设一个完成条件,它就跨轮次一直干,不用你一轮轮去催。每干完一轮,会有另一个更小、更快、更便宜的模型(默认是 Haiku)专门读一遍完成条件和这轮对话,判一句「达成」还是「没达成」,再附一句理由。没达成就接着干,达成了自动收工。

看上去像无人驾驶。但有一点必须讲清楚:那个打分的小模型,不会自己去跑命令,也不会自己去读文件,它只能看 Claude 在对话里摆出来的证据。也就是说,这套循环转得顺不顺,全看 Claude 有没有把真东西摆出来。条件写得松一点,或者 Claude 只是嘴上说「跑过了」,评估器照样可能通过。

所以自检交付不等于无人审稿。敢放手,靠的是随时能看到证据,不是赌模型聪明。

一个人开始指挥上百个智能体

如果说 /goal 是让一个 Claude 干得更久,那 Dynamic Workflows 就是让一群 Claude 一起干。

它的玩法是,Claude 替你写一段 JavaScript 脚本,这段脚本去编排大量子智能体在后台跑。官方给出的适用场景包括全库的代码审计、500 个文件的大迁移、需要交叉验证的研究问题等。一次运行最多能调动 1000 个智能体,同时并发最多 16 个。

Claude Code 甚至内置了一个叫 /deep-research 的 workflow,专门把一个问题拆成多个角度去搜、去交叉核验、再投票筛掉站不住的说法,最后给你一份带引用的报告。这意味着什么?Claude Code 已经不只是终端里那个陪你聊天的对话框了,它正在向一个能持续运行、能编排、能复用的工程代理系统靠拢。一个人指挥一支 AI 军团,现在只用 /workflows 里的一行命令就能办到。

自主不等于替代

Fable 5 确实更强。官方说它能比此前任何 Claude 模型更长时间自主工作,任务越长越复杂,它领先得越多,但这不等于程序员完全可以撒手不管了。

恰恰相反,官方最佳实践通篇在强调四件必须要交给人去干的活:定验证标准、管权限、控上下文、审证据。它甚至专门列出了一些应当避免的常见失败模式,其中一类错误叫「信任但不验证的缺口」(The trust-then-verify gap),说的正是 Claude 给出一份看着像模像样、实则没处理边界的情况。解法只有一个:你能验证它,才能发布它;验证不了,就别发布。

成本和门槛也绕不过去。Fable 5 的价格是每百万输入 token 10 美元、每百万输出 token 50 美元。能力更猛的「孪生兄弟」Mythos 5,底层是同一个模型,只是放宽了部分安全保护,眼下只开放给一小部分网络防御者和基础设施提供方。Fable 5 本身还带着一层分类器护栏,碰到网络安全、生物化学这类敏感话题,它会自动把回答交给 Opus 4.8 接管。官方说超过 95.0% 的会话不会触发这种回退,但护栏调得偏保守,偶尔也可能误伤正常请求。

敢接长任务,不等于敢完全撒手。越自主,越要会验收。回到 Thariq 那句话:是时候更有雄心了。这个雄心背后的潜台词是让你敢把更大的问题交出去,但放手的过程还要有掌控,这更像是一种融合了经验与直觉的艺术。

规则是起点,不是教条

说了这么多规则和方法后,Anthropic 官方补了一条:它们全是起点,不是教条。

也就是说,这套最佳实践在多数情况下好用,却未必适合每个场景。有时候,你该让上下文一直攒着,因为你正啃一个复杂问题,那段历史很重要;有时候,你该跳过计划直接让 Claude 上,因为任务本就是探索性的;有时候,一句含糊的提示恰恰是对的,因为你想先看看它怎么理解,再决定要不要框住它。

诀窍是留心什么管用,没有一定之规。Claude 干得漂亮时,回想你做了什么:提示怎么写的、给了哪些上下文、用的哪个模式;它卡壳时,反思一下:提示太空、任务一口吃不下?慢慢地,你会长出一种没有任何指南可以教的直觉:什么时候该说细、什么时候该留白;什么时候该计划、什么时候该放它去探索——到了那一步,你才算真懂了怎么和它一起干活。

当 Fable 5 能把两个多月的活一天干完之后,程序员最稀缺的能力已经变了:不再是把代码写好,而是定义什么才是好代码。「会编程」这件事的定义,也在被悄悄改写。

未来最值钱的工程师,不再是代码监工,而是那个最会提问、定标准、验收的人。在 云栈社区,这样的工程思维正在被越来越多的开发者认可和讨论。

参考资料  




上一篇:快手二面:大模型 Function Call 训练全解析,从 SFT 到 RLHF
下一篇:eBPF赋能的ART运行时DEX采集与字节码回填技术解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-11 04:35 , Processed in 0.638947 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表