云栈社区»论坛 › 开发者广场「Dev Plaza」 › Claude Opus 4.6早期测试揭秘：四大团队如何评估其代码与推理能 ...

发回帖发新帖

5341 积分	0 好友	723 主题

发消息

Claude Opus 4.6早期测试揭秘：四大团队如何评估其代码与推理能力

发表于 2026-2-11 18:05:19 | 查看: 120| 回复: 0

原文链接：https://claude.com/blog/behind-model-launch-what-customers-discovered-testing-claude-opus-4-6-early
作者：Anthropic
译者：倔强青铜三

每当新的 Claude 模型准备上线前，Anthropic 都会提前几天将研究模型的访问权限开放给一小部分核心客户。这些客户会在真实的工作负载环境中对模型进行测试，目的是找出它的优势、短板，并最终决定是否要在模型公开发布后立即将其集成到自己的产品中。他们的评估结果，无论是好是坏，都将直接塑造最终发布的模型版本。

这通常是一个紧张而高强度的测试窗口。参与测试的团队会为此清空日程，组织起临时的“作战室”，将他们能想到的最具挑战性的任务一股脑地抛给模型。在幕后，往往是通宵达旦的工作、不间断的咖啡以及深夜仍在闪烁的 Slack 消息。用户最终看到的是一款精致的成品，但通往这个结果的过程，远比想象中要混乱和有趣得多。

在这篇文章中，我们将通过 Harvey、bolt.new、Shopify 和 Lovable 这几家公司的视角，揭开 Claude Opus 4.6 早期测试阶段的面纱，看看他们采用了怎样的方法，取得了哪些突破性的发现，以及他们比其他人更早洞察到了什么。

不同的团队，相同的起点：制定测试策略

每个团队的测试起点，很大程度上取决于他们正在构建什么产品。

bolt.new 专门建立了一个 Slack 频道用于内部沟通，他们刻意避免过早分享对模型的初步印象，以防止团队成员之间的看法相互影响。
Harvey 的研究团队则邀请了经验丰富的执业律师来测试模型在法律任务上的表现，同时运行他们内部的“BigLaw Bench”基准测试，这是一个基于真实法律工作的评估体系。
Shopify 的工程师们直接将新模型纳入他们围绕 Claude 构建的迭代规划循环中，进行实践检验。
在 Lovable，负责模型评估的团队立即行动起来，一方面运行基准测试，另一方面，工程师们则预约时间进行“氛围检查”——通过使用新模型实际构建应用程序，来感受它在哪些方面变得更强。Lovable 的工程负责人 Alexandre Pesant 形容这种感觉“有点像圣诞节”。

尽管方法各异，但大家的出发点却出奇一致：把最难啃的骨头先丢给模型试试。

测试进行时：基准分数与“感觉”同样重要

当测试全面展开后，团队们会同时关注两件事：模型在标准化基准测试中的得分，以及它在实际应用中的“手感”。这两者都很关键，但它们传递的信息可能截然不同。

Harvey 的 BigLaw Bench 测试结果率先出炉，达到了 90.2% 的准确率——这是 Anthropic 模型首次在该基准测试中突破 90% 大关，其中 40% 的任务获得了满分。但更令人印象深刻的是来自专家的定性反馈。

他们的一位内部律师在运行了一次查询后反馈说，模型的输出“感觉智能且富有分析性，仿佛它真的在思考”。当结构化的评估数据和领域专家的主观感受指向同一个方向时，这无疑是一个强烈的积极信号。

bolt.new 则将他们的自动评估平台（用于测试代码构建质量、错误修复、代码库理解和设计美学）与手动压力测试相结合。测试第一天结束时，他们已经整理出一份详尽的共享文档，里面填满了已部署的测试应用程序和具体的观察记录。

一位开发人员遇到了一个瀑布图错误，该问题在之前的模型中尝试修复了五次以上均告失败。而 Opus 4.6 在第一次尝试中就准确诊断出了问题所在：它发现了八个同时触发的并行 HubSpot API 搜索，以及通过使用原始 fetch 而非项目封装的速率限制器来绕过速率限制保护的其他查询。

在 Shopify，高级工程师 Paulo Arruda 描述了一个颠覆常规交互模式的时刻：“我让 Opus 4.6 把一些内容从一个页面移动到另一个菜单项——仅此而已，没有提供任何细节。它不仅完成了移动，而且超出了我的预期，创建了许多我甚至在看到之前都不知道自己需要的细节。它预见到了我的下一个需求并直接完成了。我发现自己竟然对着 AI 说‘你完全正确’，这与以往的模式恰恰相反。”

Shopify Assistants 团队的高级工程师 Ben Lafferty 则从另一个角度进行了测试。他让 Opus 4.6 将一个用于内部原型的大型库从 TypeScript 移植到 Ruby。“它创建了一个垫片（shim）来针对仓库中的现有测试用例运行，然后几乎一次性移植了整个规范文件，同时针对原始测试集进行验证，”他说，“指令遵循能力有了显著提升。这是我第一次在早期测试中不需要提供实质性反馈。”

在 Lovable，测试沿着两条轨道并行。团队运行了设计基准测试和复杂任务评估，以获得结构化的性能视图。同时，他们也进行了前述的“氛围检查”——工程师们通过实际构建应用来亲身感受新模型的强项和瓶颈。

“发现新的能力边界总像是一场竞赛，” Alexandre Pesant 说。他自己的压力测试是一个涉及复杂地铁线路映射和行程规划的副项目，之前用其他模型尝试时都碰了壁。而使用了 Opus 4.6 并将最大输出调高后，模型推动着他越过了预期中会停滞的那个点。

“我大致能感觉到什么时候事情会做不下去，或者我们是否达到了极限，”他表示，“它确实比其他模型走得更远。”他还注意到一个更广泛的变化：随着模型使用浏览器和 Lovable 内部自行测试能力的增强，“你可以感受到自主性上的差异。”

测试结束后的共识：与模型的关系正在改变

早期访问期结束时，各团队对他们正在使用的工具有了清晰的认识。与我们交谈的每个团队都回到了同一点：人与模型之间的关系正在发生根本性的转变。

“Opus 4.6 一次就诊断出了我们用之前的模型尝试五次以上都未能修复的错误。推理深度的飞跃是真实存在的，” bolt.new 的营销副总裁 Garrett Serviss 总结道。

“对我来说，Opus 4.6 是 Anthropic 第一个感觉像是我日常工作中真正合作者的模型，” Shopify 的 Ben Lafferty 分享道，“我可以委托给模型去完成的任务，其复杂度和时间跨度都在持续增长。”

“Claude Opus 4.6 带来了设计质量上的提升，” Lovable 的联合创始人 Fabian Hedin 说，“它更加自主，这与 Lovable 的核心价值观相符。人们应该专注于创造重要的事物，而不是去微观管理 AI。”

当然，并非所有反馈都是积极的，而这正是早期测试的核心价值所在。测试者的诚实反馈，包括哪些地方还不奏效，直接决定了 Anthropic 最终会选择发布哪个版本的模型。这个过程之所以有效，正是因为团队们对不足之处同样坦诚，他们知道这种坦诚会真正影响产品的最终形态。

“我们能够塑造我们工程组织未来将使用工具的发展方向，” Shopify 的 Paulo Arruda 说，“我们不仅仅是被动的测试者——我们是开发合作伙伴。当我们识别出问题或某种模式时，Anthropic 会倾听并快速迭代。”

对于开发者和技术团队而言，参与这样的早期测试不仅是一次抢先体验，更是深入了解 AIGC 模型能力前沿的绝佳机会。这种从实际应用中获得的洞察，远比单纯的基准分数更有价值。如果你对类似的模型评估、测试方法论或人工智能技术的实际应用案例感兴趣，欢迎在技术社区中进行更深入的探讨与交流。

上一篇：清华大学联合发布UltraData 2.4T开源数据，详解L0-L4分级治理体系与数学数据集
下一篇：MonadDb 深度解析：Monad 如何定制高性能状态数据库实现 EVM 异步并行执行

Claude, Opus, Anthropic, AIGC, 早期测试

Claude Opus 4.6早期测试揭秘：四大团队如何评估其代码与推理能力

不同的团队，相同的起点：制定测试策略

测试进行时：基准分数与“感觉”同样重要

测试结束后的共识：与模型的关系正在改变

相关帖子