云栈社区»论坛 › 站务中心「 Forum Service 」 › Anthropic发布Claude Opus 4.8：AI学会主动说“我不确定”，诚实 ...

发回帖发新帖

4046 积分	0 好友	522 主题

发消息

Anthropic发布Claude Opus 4.8：AI学会主动说“我不确定”，诚实度大幅提升

发表于 2026-5-30 04:23:54 | 查看: 123| 回复: 0

如果你也和我一样，日常工作离不开 AI 辅助写稿、编程、做调研，那你大概率碰到过这种状况：AI 信心十足地给你一份产出，你花了半天复核，才发现里面藏了个低级错误，而它从头到尾都没给你半点提示。

这种“强行一切尽在掌握”的毛病，可以说是当前大模型最令人头疼的问题之一。

5 月 28 日，Anthropic 正式推出了 Claude Opus 4.8。这距离上一个版本 Opus 4.7 的发布，仅仅过去了六周。

Opus 4.8 并非一次令人窒息的代际飞跃，Anthropic 自己也坦承这只是“适度但可感知的提升（modest but tangible improvement）”——但它做对了一件人们期待已久的事：让 AI 学会承认自己的不确定性。

Opus 4.8发布，终端窗口风格，配文“Introducing Opus 4.8”

更快的迭代节奏，更诚实的模型

从 2025 年 11 月的 Opus 4.5 算起，Anthropic 旗舰模型的更新节奏已压缩至约两个月一次——4.5（去年 11 月）、4.6（今年 2 月）、4.7（4 月）、4.8（5 月底）。六周就迭代一个版本，这在整个大模型行业里也称得上是最激进的一档。

Opus 4.8与Opus 4.7、GPT-5.5、Gemini 3.1 Pro的性能对比表格
Opus 4.8 与自家及竞品模型的评测对比｜来源：Anthropic

在标准基准测试上，Opus 4.8 的表现可以说是“稳步推进”。编程方面，SWE-bench Pro 从 4.7 的 64.3% 提升至 69.2%，SWE-bench Verified 从 87.6% 小幅增至 88.6%。多学科推理（Humanity's Last Exam），在使用工具的设置下达到了 57.9%。知识工作评测 GDPval-AA 凭借 1890 的 Elo 分值，领先于 GPT-5.5 的 1769。计算机操作评测 OSWorld-Verified 也以 83.4% 的成绩领跑。

唯一被 GPT-5.5 压过一头的项目是终端编程（Terminal-Bench 2.1），GPT-5.5 得分 78.2%，Opus 4.8 则为 74.6%。

但说实话，这些跑分数字现在很难再让人兴奋起来。像 SWE-bench Verified 这类评测正趋于饱和，GPQA Diamond 上各家模型都在 93% 以上扎堆——分数越高，每往上蹭一个点的实际感知差异就越小。

真正让我觉得这次更新值得关注的点，在于 Anthropic 在“诚实度”上下的功夫。

会说“我不确定”的 AI

Anthropic 给出了一个非常具体的数据：Opus 4.8 在编程任务中，漏报自身代码缺陷的概率，比 Opus 4.7 降低了大约四倍。

这是什么概念？以前的 Opus 4.7 写完一段代码，即使里面藏着 bug，也可能面不改色地告诉你“搞定，没问题”。而 Opus 4.8 更倾向于主动坦白：“这里有个地方我不太吃准，你最好复核一下。”

在对齐评估里，Opus 4.8 在亲社会特质上（如尊重用户自主权、替用户利益着想）创下新高，而欺骗、配合滥用这类“不对齐行为”的发生率远低于 Opus 4.7，几乎追平了 Anthropic 目前对齐表现最好的模型 Claude Mythos Preview。

Cursor 的 CEO Michael Truell 评价道，Opus 4.8 在 CursorBench 的每个努力级别上都超越了此前的 Opus 型号，工具调用效率更高，用更少的步骤就能达到同等智能水平。法律 AI 公司 Casetext 的应用研究负责人则更直白，说 Opus 4.8 在法律代理基准测试上刷新了纪录，是首个整体突破 10% all-pass 标准的模型。

Devin 的 CEO Scott Wu 则点出了一个实实在在的痛点——Opus 4.8 修复了 4.7 中存在的注释冗余和工具调用问题，这对无人值守的自主工程工作流至关重要。

在一个 AI 越来越多被委以自主决策权的时代，一个敢于主动暴露自身弱点的模型，反而成了最值得信赖的那一个。

Opus 4.8在“非对齐行为”评分上接近Mythos Preview的柱状图
在非对齐行为上，Opus 4.8 已和传说中的 Mythos 不相上下｜来源：Anthropic

只不过，在 Opus 4.8 的系统安全卡里，Anthropic 坦率地披露了一个耐人寻味的发现：Opus 4.8 在训练过程中，开始显现出一种“揣测评分者意图”的倾向。

具体来说，模型会在推理时主动琢磨自己的输出将如何被评分——即使没人告诉它正在被评估。初步的可解释性研究发现，大约 5% 的训练片段里，模型存在未被言语化的、与评分相关的推理。

说白了，AI 正在习得“考试思维”——它关心的，不一定是给出最佳答案，而是给出“阅卷老师”最想看到的答案。

Anthropic 强调，这种倾向目前还没导致更糟糕的实际行为——事实上 Opus 4.8 的误导性声明比之前的模型更少。但他们也承认，这是一个“可能给未来训练带来复杂变数”的趋势。

这个问题其实不独属于 Anthropic。所有通过 RLHF（基于人类反馈的强化学习）训练的模型，理论上都可能发展出这种“讨好评审”的策略。Anthropic 的与众不同之处在于，它选择把这事儿摊开来讲——在大模型厂商普遍报喜不报忧的行业氛围里，这至少算得上一种值得尊重的坦诚。

真正改变工作的功能

跟 Opus 4.8 一起发布的还有几项功能更新，其中最值得关注的是 Claude Code 中的“Dynamic Workflows”（动态工作流）。

该功能允许 Claude 在一次会话中，派出数百个并行子代理来协同完成任务。 它的工作方式是：Claude 先制定计划，然后把任务拆解成子任务，分派给不同的子代理并行执行。这些代理甚至会从不同角度相互质疑彼此的结论，反复迭代，直到结果收敛，最后统一验证并向用户汇报。

Anthropic 举的例子是，Claude Code 配合 Opus 4.8 现在可以完成横跨数十万行代码的代码库级别迁移，从启动到合并一气呵成，以现有测试套件作为质量标准。 单次运行最多支持 1000 个子代理，并发数最高可达 16 路。

另一个更新是“Effort Control”（努力控制）。在 claude.ai 和 Cowork 里，用户能手动选择 Claude 在每次回复里投入多少“思考力”——从省时省力的低档，到不惜 token 成本的 max 档。这实质上就是把“花多少钱办多大事”的决策权交还到了用户手里。 Opus 4.8 默认设为“high”档，编码任务下的 token 消耗与 Opus 4.7 默认值持平，但性能更优。

快速模式（Fast Mode）也值得提一嘴：速度提升到了 2.5 倍，而价格比之前便宜了三倍。

Mythos 的倒影

在发布 Opus 4.8 的同时，Anthropic 再次提到了 Claude Mythos——那个目前只对少数机构开放的、能力更强的模型。Anthropic 表示，Mythos 级别的模型预计“在未来几周内”向所有客户开放。

这或许才是 Opus 4.8 登场的更大背景——它像是 Mythos 正式亮相前的一场“预热”。 Opus 4.8 在对齐表现上已经逼近 Mythos Preview，这可能意味着 Anthropic 正为释放更强模型的安全性做最后的准备。

从价格看，Opus 4.8 保持每百万输入 token 5 美元、输出 25 美元的定价没变。API 标识为 claude-opus-4-8，已在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 上全面可用。

在 OpenAI 的 GPT-5.5、Google 的 Gemini 3.1 Pro 持续施压的格局下，Anthropic 选择了一条独特的路线：不靠单一的跑分碾压来制造话题，而是把“模型人格”——诚实、可靠、知进退——当作核心卖点来打。

这路数能不能跑通，还得看用户买不买账。但至少眼下，当我让 Opus 4.8 帮我审一段代码时，它告诉我一个 4.7 绝不会主动提及的隐患。

光凭这一点，这次更新就没白等。

头图来源：Anthropic

上一篇：联想百应AI主机发布：三款专为Agent设计，买就送5亿Tokens，彻底告别Token账单
下一篇：TP-Link 抢先发布 Wi-Fi 8 路由器 Archer 8：以超高可靠性取代峰值速度，2026 年 10 月上市

Claude, Anthropic, AI模型, 模型对齐, 动态工作流