找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1069

积分

0

好友

135

主题
发表于 16 小时前 | 查看: 1| 回复: 0

Anthropic 刚刚发布了其旗舰模型 Claude Opus 的最新版本——4.6。这次升级被认为是其“最智能模型”的一次重要迭代,新模型在多个关键基准测试中都展现了卓越的性能,尤其是在衡量抽象推理能力的 ARC-AGI 2 测试中取得了 68% 的成绩,显著超越了当前的其他主流竞争对手。

Claude Opus 4.6 与竞品模型多任务性能对比

核心能力提升

Opus 4.6 在编程能力上有了实质性的进步。它能够更周密地规划任务,在大型代码库中的操作也更加可靠,代码审查和调试的技能也得到了增强。对于开发者而言,这些改进意味着更高效的生产力工具。

值得一提的是,这是 Opus 系列首个提供 100 万 token(测试版)上下文窗口的模型。这意味着它能处理更长的文档和更复杂的多轮对话,在需要超长信息关联的任务中潜力巨大。

Opus 4.6 与 Sonnet 4.5 在长上下文检索任务上的性能对比

在日常办公场景下,新模型能够运行财务分析、进行深度研究,并熟练地创建和编辑文档、电子表格及演示文稿。在 Anthropic 的 Cowork 协作环境中,Opus 4.6 可以自主运用这些技能为用户提供服务,向真正的“智能助手”又迈进了一步。

基准测试表现

除了 ARC-AGI 的突出表现外,Opus 4.6 在一系列前沿评估中均达到了行业领先水平:

  • 在 Terminal-Bench 2.0 代理编码 评估中取得了最高分。
    Opus 4.6 在终端编码基准测试中的表现
  • 在 Humanity‘s Last Exam 这类复杂的多学科推理测试中,领先于所有其他前沿模型。
    多学科推理测试 Humanity‘s Last Exam 成绩对比
  • 在衡量经济价值的实际工作任务评估 GDPval-AA 中,其得分比行业次优模型(OpenAI GPT-5.2)高出约 144 个 Elo 点。
    知识工作 GDPval-AA 基准测试 Elo 分数对比
    GDPVal-AA 排行榜详细数据

对于这样的成绩,社区反应不一。有评论惊叹:“ARC-AGI 2 的得分太疯狂了,几个月内这个领域就会饱和。”同时也有声音质疑,这些基准测试究竟能在多大程度上衡量模型解决实际、复杂问题的“有意义的能力”。关于大模型能力的评估体系,一直是人工智能领域的热门讨论话题。

实际应用反馈

从早期测试合作伙伴的反馈来看,评价颇为积极。Notion 称其为“Anthropic 发布的最强模型”,GitHub 指出它在“复杂的多步骤编码工作”上表现出色,Replit 则评价其在代理规划方面实现了“巨大飞跃”。这些来自一线应用方的声音,或许比单纯的基准分数更能说明其实际价值。

定价保持不变

尽管性能提升显著,但 Anthropic 保持了 Opus 模型的定价策略:每百万 token 输入 5 美元,输出 25 美元。这一决定让部分期待因性能提升而获得降价或“加量不加价”福利的用户感到些许失望。

Claude Opus 系列模型定价表

安全性能

Anthropic 特别强调,此次智能的提升并未以牺牲安全性为代价。在自动化的行为审计中,Opus 4.6 显示出较低的错误对齐行为发生率,例如欺骗、不当奉承、鼓励用户妄想或合作滥用等。

Opus 4.6 与其他版本模型在“未对齐行为”上的评分对比

开发者新功能

对于通过 API 集成的开发者,本次更新也带来了几项实用的新功能:

  • 自适应思考:模型可以自行判断何时需要进行深度、缓慢的推理,以应对复杂问题。
  • 努力控制:提供四个可调节的智能水平选项,让开发者能在速度、成本和推理深度之间取得平衡。
  • 上下文压缩:模型可以自动总结和替换上下文中较旧的部分,这对于管理超长对话和降低成本很有帮助。
  • 128k 输出 token 支持:单次生成长文本的能力得到进一步增强。

目前,Claude Opus 4.6 已通过 claude.ai 网站、API 及所有主要云平台提供。对于那些需要处理复杂任务、依赖长期记忆和代理工作流程的用户和开发者来说,这次升级无疑值得重点关注和测试。技术的快速迭代总是能带来新的可能性,也促使我们不断思考工具与工作的未来形态。




上一篇:嵌入式开发实践:使用Git版本控制与CMake构建系统
下一篇:开关电源内部电路模块深度解析:从EMI滤波到PWM控制工作原理
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-7 20:29 , Processed in 0.375427 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表