2026年2月17日,Anthropic正式发布了Claude系列的新成员——Sonnet 4.6。

许多用户自然会问:目前Claude最强版本是Opus 4.6,新出的Sonnet 4.6和它有什么区别?究竟哪个更强?它们各自的定位又是什么呢?
Sonnet 4.6 相比 Sonnet 4.5 有哪些提升?
首先,我们来看Sonnet 4.6相较于上一代Sonnet 4.5的进步。通过官方发布的基准测试数据,可以直观地看到各项能力的提升。
| 指标 |
Sonnet 4.5 |
Sonnet 4.6 |
提升 |
| SWE-bench Verified(真实代码任务) |
77.2% |
79.6% |
+2.4% |
| OSWorld(电脑操作任务) |
61.4% |
72.5% |
+11.1% |
| ARC-AGI-2(新问题推理) |
— |
58.3% |
— |
| GDPval-AA 办公任务(Elo) |
1276 |
1633 |
大幅提升 |
| Finance Agent v1.1(金融分析) |
— |
63.3% |
全模型最高 |
从表格可以看出,Sonnet 4.6在代码能力(SWE-bench)上稳步提升。最显著的进步在于电脑操作能力(OSWorld),提升了11.1个百分点,这意味着它在自动化执行桌面任务方面表现更为出色。
除了性能,Sonnet 4.6 新增了 1M token 上下文窗口(Beta版),这是4.5版本所不具备的。如今,超长上下文似乎已成为顶级模型的标配,它能更好地处理大型代码库、冗长技术文档等复杂场景。
此外,该版本还支持了自适应思考与扩展思考模式、上下文压缩(Beta)、网页搜索以及代码执行工具,进一步增强了其作为智能体(Agent)的实用性。
Sonnet 4.6 与 Opus 4.6 的核心区别
这两款模型并非简单的“强弱”关系,而是有着不同的设计定位和擅长领域,选择合适的模型对于人工智能应用至关重要。
Opus 4.6 的强项:
- 复杂推理与深度分析:在ARC-AGI-2(新问题推理)基准测试中得分68.8%,显著高于Sonnet 4.6的58.3%。
- 多学科推理:在需要结合工具使用的多学科推理任务中表现出色(得分53.0%)。
- 终端编程任务:在Terminal-Bench 2.0测试中达到65.4%的得分。
- 适用场景:非常适合法律文件分析、医疗诊断辅助、复杂金融建模等高精度、高风险的深度分析场景。
Sonnet 4.6 的强项:
- 办公自动化任务:在GDPval-AA(办公任务)的Elo评分达到1633,反超了Opus 4.6的1606分。
- 金融分析Agent:在Finance Agent v1.1测试中以63.3%的得分位居所有模型第一。
- 电脑操作:在OSWorld测试中得分为72.5%,与Opus 4.6的72.7%几乎持平。
- 适用场景:非常适合日常编码辅助、需要长时间运行的自动化Agent、客户端AI应用以及常规的办公生产力提升。
简单总结: 如果你的任务需要顶尖的推理能力和深度分析,Opus 4.6仍是首选。但对于大多数生产环境应用,尤其是办公自动化和金融分析场景,Sonnet 4.6不仅性价比更高,在部分任务上的表现甚至更优。
价格对比
成本是选型时不可忽视的因素。Sonnet 4.6做到了“加量不加价”。
| 模型 |
输入(每百万token) |
输出(每百万token) |
| Sonnet 4.6 |
$3 |
$15 |
| Opus 4.6 |
$5 |
$25 |
| Opus 4.6(超过200K上下文) |
$10 |
$37.50 |
Sonnet 4.6的定价与Sonnet 4.5完全一致,实现了性能提升而价格不变。相比之下,Opus 4.6的价格几乎贵了一倍,且使用超长上下文(超过200K)还会有额外费用。目前,Sonnet 4.6已是claude.ai网站上免费用户和Pro订阅用户的默认模型,无需额外付费即可使用。
到底该如何选择?
综合性能、场景和成本,我们可以给出更清晰的选型建议:
-
选择 Sonnet 4.6:如果你的主要需求是日常编程、构建长时间运行的智能体(Agent)、办公自动化(如处理电子表格、文档)、金融数据分析等。它在这些场景下提供了极高的性价比,并且部分能力表现突出。对于追求智能 & 数据 & 云时代高效能工具的开发者和团队而言,它是一个非常务实的选择。
-
选择 Opus 4.6:如果你的任务涉及极其复杂的逻辑推理、多步骤的科学研究分析、法律条文深度剖析、或对输出准确性有极致要求的高风险决策。它为顶级智力密集型任务而设计。
技术的迭代总是令人兴奋,Claude Sonnet 4.6的发布为开发者提供了更多样化、更经济高效的选择。关于模型选型、AI应用开发,你有什么想法或实践经验?欢迎在云栈社区与更多开发者交流探讨。
|