说实话,看到 Anthropic 又发新模型的消息,我第一反应是:又来?
这半年 AI 模型更新太快了,快到“新版本发布”这件事本身已经不算新闻。GPT-5.4 刚发没多久,Gemini 3.1 Pro 也在追,现在 Anthropic 又扔出一个 Claude Opus 4.7。
但这次我认真看完发布细节之后,改主意了。这不是挤牙膏。这次是真有料。
先说最能打的:编程能力。
SWE-bench Verified 这个测试,专门考 AI 能不能解决真实的 GitHub 代码问题。不是那种“写个 Hello World”的玩具题,而是真正工程师日常碰到的 bug 修复、功能开发。
上一代 Opus 4.6 的成绩是 80.8%。
Opus 4.7 直接跳到了 87.6%。
划重点:7 分的跳涨在这个级别不是小数字。做个类比——高考从 680 分考到 687 分可能靠刷题,但从 687 跳到 694 需要的是真正理解上的突破。
更刺激的是 SWE-bench Pro,这个更难的多语言版本。Opus 4.7 拿了 64.3%,而 GPT-5.4 只有 57.7%,Gemini 3.1 Pro 是 54.2%。
简单说:在解决实际 开源实战 问题上,Claude 现在是第一。不是“之一”,是第一。
眼睛也升级了。
Opus 4.7 的图像理解能力提了一个大台阶。之前 Claude 看图片的分辨率上限比较低,很多细节看不清。这次直接支持到长边 2576 像素,是之前的三倍多。
这意味着什么?你拍张文档、截个复杂的界面、甚至给它一张建筑图纸,它能看清楚上面的小字了。以前让 AI 帮你看技术文档截图,它经常把关键参数看错。现在这个问题大幅改善了。
两个新功能值得关注。
第一个叫 xhigh effort level。用大白话说,就是你可以让 Claude“想得更深”。普通问题它快速回答,复杂问题你切到 xhigh 模式,它会花更多算力仔细推理。有点像考试时候的“检查一遍”按钮。
第二个叫 /ultrareview。这是给 开发者 用的代码审查命令。不是简单的语法检查,而是模拟一个资深工程师做 code review,能发现设计缺陷和逻辑漏洞。
听起来像是程序员才关心的东西?也不完全是。这说明 AI 已经从“帮你写代码”升级到了“帮你审代码”——以前是副驾驶,现在能当质检员了。
价格没变,这才是真新闻。
API 定价维持 $5/$25 每百万 tokens。跟上一代 Opus 4.6 完全一样。能力涨了一大截,钱没多收。这在 AI 行业不常见。
当然,Anthropic 不是做慈善。价格不变是因为竞争太激烈了——OpenAI 的 GPT-5.4 和 Google 的 Gemini 3.1 Pro 都在后面追,谁先涨价谁就丢客户。这波 AI 三国杀,用户是最大受益者。
安全这块也有新动作。
Opus 4.7 是第一个内置自动化网络安全检测系统的 AI 模型。简单说,如果有人试图用 Claude 做坏事——比如生成恶意代码、搞网络攻击——系统会自动拦截。
这算是 Anthropic 在为前阵子 Mythos 那个“太危险不敢公开”的模型做善后。Opus 4.7 比 Mythos 弱一些,但 Anthropic 说它“风险更低”,可以放心给大家用。
Mythos 强到能找出数千个零日漏洞,所以只给了 12 家安全公司用。Opus 4.7 则是全面开放——AWS、Google Cloud、Microsoft Foundry 全都能用。
跟你有什么关系?
如果你是开发者,现在用 Claude Code 写代码的体验会好一截。Anthropic 之前说过 Claude 写了自己 90% 的代码,这话听着夸张,但看了 Opus 4.7 的编程成绩,开始有点信了。
如果你是普通用户,直接用 claude.ai 聊天的话,你会发现它理解图片更准了,回答长问题更靠谱了,指令跟随也更精确了。
更大的信号是:AI 模型的竞争已经从“谁先做出来”变成了“谁做得更好”。半年前大家还在比谁的参数多,现在比的是实际解决问题的能力。这场 人工智能 的竞赛,对用户来说是好事。
一句话总结:AI 模型军备竞赛没有放缓的迹象,但好消息是——打起来的时候,用户不亏。如果你想持续关注这类硬核又接地气的技术分析,不妨来我们 云栈社区 逛逛,这里有不少和你一样关注前沿技术的同行。