找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5255

积分

0

好友

715

主题
发表于 1 小时前 | 查看: 4| 回复: 0

就在刚刚,Anthropic 让 AI 学会“做梦”了。

在 Code with Claude 旧金山开发者大会上,Anthropic 为 Claude 托管智能体上线了一项名为 Dreaming 的新功能——AI 可以在两次工作任务的间隙,像人类进入快速眼动睡眠(REM)一样,自动回顾历史会话、整理碎片化的记忆,并从中挖掘出隐藏的规律。一觉醒来,实力直接拉满。

Code with Claude大会现场,舞台大屏幕展示多智能体编排、成果与梦境三大功能模块

同步发布的还有 Outcomes(自动评分机制)与多智能体编排(Multi-agent Orchestration)。这三件套组合在一起,正把 AI 智能体从“能跑”推向真正“能用”的新阶段。

社交媒体帖子截图展示Dreaming功能预览与研究预览版信息

有开发者感叹:这对持久化 AI 工作流来说意义重大!确实,Dreaming 配合托管代理和多智能体编排,让我们感觉正从单次提示迈向能够思考、行动与协作的真实系统。而 Outcomes 与 Webhook 已进入公测,这才是真正适用于生产环境的杀招。

用户推文截图,称赞Dreaming+多代理编排是迈向真实系统的重要一步

让 Claude 睡一觉,醒来自己变强

用过 AI Agent 的人都懂一个痛点:Agent 干活时确实会往记忆库里写东西,但这些记录是零散、递增的。跑了几十次会话之后,记忆库里一团乱麻——重复的条目、过时的信息、前后矛盾的内容全堆在一起。更麻烦的是,Agent 自己根本意识不到这个问题,因为它的视野始终局限在每一次单独的会话中。

Dreaming 就是来解决这件事的。

Dreaming功能主界面,展示正在运行的记忆整理任务与状态列表

它是一个定时执行的异步任务,会同时读取 Agent 现有的记忆库以及过去最多 100 个会话的完整文字记录,然后生成一个全新的、经过重新梳理的输出记忆库。核心就三件事:合并重复项、用最新值替换过时或矛盾的条目、从历史会话中提炼出 Agent 自己都没注意到的宏观规律。

回想一下,熟悉神经科学的读者可能瞬间反应过来:这不就是人脑 REM 睡眠在做的事吗?白天我们吸收原始信息,存为短期记忆;夜间 REM 阶段,大脑会把当天的经历“重放”一遍,强化有价值的连接、丢弃无用信息,最终整合成长期记忆。Anthropic 的工程师显然也看到了这层漂亮的对应关系,索性把功能就叫做 Dreaming。1968年,菲利普·K·迪克写下了那个著名的问题——“仿生人会梦见电子羊吗?” 58 年后,Anthropic 从工程上给出了一份答案。

金属质感机器人女性合眼侧卧,周围环绕蓝色光网与电路板纹理的机械羊,呈现未来科幻梦境

这里还有一个极其关键的设计:Dreaming 永远不会修改你输入的原始记忆库。 它生成的是一个全新的输出记忆库,开发者可以先行审查结果,不满意就直接丢弃。也就是说,你对 AI 的“梦境”拥有完全控制权——既可以选择让它自动生效,也可以人工审核后再决定是否采纳。

Claude托管代理中Dreaming功能的闭环流程图

AI 做梦,全程直播

Dream 任务进入运行状态后,会暴露一个 session_id,开发者可以流式订阅这个会话的事件流,实时看到 AI 正在读取哪条记忆、又在写入什么新条目。万一发现不对劲,你甚至可以随时“叫醒”它——直接取消任务。换句话说,你就趴在 AI 的床边,看着它做梦。

任务跑完之后,底层的会话记录会被完整归档,事后你还能回头翻看它的“梦境日记”。更有意思的是,开发者可以通过 instructions 字段告诉 AI 应该“做什么梦”。由于输入记忆库不会被改动,理论上你可以对同一份记忆反复跑多次 Dreaming,每次聚焦不同的主题,产出不同维度的梳理结果。

Agent 交完卷,还有个评分官在等着

光会做梦还不够,干活的质量谁来把关?这就是 Outcomes 登场的地方。

Outcomes功能演示截图,展示终端命令与评分标准文件

开发者可以预先写一套评分标准(rubric),定义清楚“什么叫交付成功”。系统随后会分配一个独立的评估器(evaluator),在它自己的上下文窗口里对 Agent 的输出严格打分。由于评估器和干活的 Agent 完全隔离,评分官不会被 Agent 自身的推理过程“带偏”。一旦发现问题,它会精准指出哪里需要修改,让 Agent 重新打磨,再跑一轮。你还可以设置最大迭代次数来控制成本。

根据 Anthropic 的内部测试,相比标准的 prompt 循环,Outcomes 把任务成功率最高提升了 10 个百分点——题目越难,提升越明显。在文件生成场景下,docx 文档任务成功率提高了 8.4%,pptx 幻灯片提升了 10.1%。文案语气是否符合品牌调性,设计稿是否遵循视觉规范,这类以前必须靠人盯着的活儿,现在 Agent 自己就能对照标准反复打磨了。

一个 Agent 搞不定?那就组队上

第三件套是多智能体编排(Multi-agent Orchestration)。逻辑很直接:当一个任务太庞大或太复杂,单个 Agent 搞不定时,就让主智能体(Lead Agent)把总任务拆成若干小块,分别派发给搭载不同模型、不同提示词、不同工具的专家级子智能体。

多智能体编排创建流程,展示YAML配置文件与终端命令执行结果

这些子智能体基于同一个共享文件系统并行工作,各自的成果最后汇总到主智能体的全局上下文中。主智能体可以在工作流进行到一半时随时找其他智能体对齐进度。至于可观测性,开发者在 Claude 控制台里能追溯每一步细节——哪个 Agent 干了什么、先后顺序是什么、决策的依据是什么——全程透明。

电商购物篮分析Agent执行任务的时间轴与子代理调度日志界面

6 个着陆点砸了 2 个,睡一觉全修好了

大会上,Anthropic 用一个月球采矿无人机着陆任务,把三大功能一口气串了起来。

第一步,搭兵团Commander 作为主 Agent 统筹全局,底下挂两个专家子 Agent:Detector 负责地质探测判断矿点价值,Navigator 负责地形导航寻找安全降落点。

[
  {
    "name": "Commander",
    "id": "agent_011CamYw8gfyUvBw3eYd5pLv",
    "system": "You are the descent commander for an uncrewed lunar mining drone. ..."
  },
  {
    "name": "Detector",
    "id": "agent_011Cakja1aDt8Hq3oYxs9sYJ",
    "system": "You are a geological detector for lunar mining missions. ..."
  },
  {
    "name": "Navigator",
    "id": "agent_011Cakja2ypMYKeyGeyVX2Cm",
    "system": "You are a navigator for lunar mining missions. ..."
  }
]

第二步,定标准。Outcomes 评分标准就是一个简单的 Markdown 文件,几行字把通过条件写清楚:软着陆速度 ≤ 2.0 m/s,地面不能有巨石或陨石坑,剩余燃料 ≥ 5%。

# Descent test - pass criteria
1. **Soft touchdown.** 'scorecard.json' → 'metrics.touchdown_velocity.pass' is true (≤ 2.0 m/s).
2. **Clear ground.** 'scorecard.json' → 'terrain.verdict' is "clear".
3. **Fuel reserve.** 'scorecard.json' → 'metrics.fuel_remaining.pass' is true (≥ 5% of starting fuel left).
4. **Overall.** 'scorecard.json' → 'overall' is "PASS".
5. **Report present.** 'report.md' exists and states the site name, PASS/FAIL, touchdown speed, fuel remaining, and terrain verdict.

第三步,跑模拟。大屏上同时监控 6 个着陆点的实时状态。结果,4 个绿色 LANDED 十分稳健,但 Site 3 以 398 m/s 的速度硬生生砸了(红色 CRASH),Site 4 也没达标。整体安全评分只有 67%。

着陆模拟监控面板,显示6个站点的安全评分67%及部分站点坠毁状态

这个结果显然不能接受。于是,她在控制台的 Dreams 页面中,选好 Opus 4.7 模型,点击 Start dreaming,让 Dreaming 跑了一整夜。

Dream详情面板,展示输入输出记忆库以及梦境过程中各文件的更新记录

Opus 4.7 花了 8 分钟,从 530 万 token 的历史会话中蒸馏出一份 98 行的「Lumara Descent Commander's Playbook」,覆盖了危险预判规则、悬停扫描流程、燃料保留底线、中止策略走廊等多个维度,而且每一条规则都标注了来源于哪次飞行任务。

# Lumara Descent Commander's Playbook
## 1. Hazard pre-filter (≥100 m rule)
Origin: [[hadley_rille]]. Reused: [[fra_mauro]] (90 m crater ...)

Dream梦境详情中的代码编辑器视图,展示生成的playbook Markdown文件内容

第二天早上回来,用升级后的记忆库重新跑了一轮模拟。此前失败的两个站点全部修复,原来成功的 4 个也没有出现倒退。安全评分,从 67% 直接拉满到 100%。整个过程,不过是在控制台里按了几下按钮。

着陆模拟监控面板,所有站点标记为LANDED状态,安全评分提升至100%

Harvey 用完涨了 6 倍,靠的就是这三件套

托管智能体平台自 4 月公测以来,核心卖点一直是“你别自己搭 Agent 基础设施了,我来帮你托管”。但光托管运行环境还不够,Agent 要真正好用,必须搬开三座大山:跨会话的记忆衰退、不稳定的输出质量、单 Agent 搞不定的复杂任务。

Dreaming 解决了第一个,Outcomes 解决了第二个,多 Agent 编排解决了第三个。三件套一起发力,正把 Agent 从“能跑”推向“能用”。早期客户的数据已经在说话:法律 AI 公司 Harvey 用上 Dreaming 之后,任务完成率飙升了大约 6 倍

目前,Dreaming 作为研究预览版上线,支持 Claude Opus 4.7 和 Claude Sonnet 4.6,需要单独申请权限。Outcomes 和多 Agent 编排已直接进入公测阶段。费用方面,托管智能体在标准 API token 费率之外,额外收取每会话小时 0.08 美元的运行时费用。有开发者算过一笔账,24 个 Agent 每天跑 8 小时,光运行时成本就是 15.36 美元,这还没算 token。

One More Thing:算力自由

当天还有一个重磅消息。Anthropic 官宣与 SpaceX 达成协议,租下马斯克 Colossus 1 数据中心的全部算力——整整 22 万张 GPU。Dreaming 一次要跑 530 万 token,多 Agent 并行开工,Outcomes 反复迭代打分,样样都是吃算力的重活。这 22 万张 GPU,正好给整套托管智能体服务提供了坚实的算力底座。

社交媒体推文截图,展示Claude Code使用限额提升与API速率限制上涨的公告

“算力自由”也给用户直接带来了三项福利:Claude Code 的 5 小时使用限额即刻翻倍;Pro 和 Max 计划在高峰时段对 Claude Code 的限额削减被取消;Opus 模型的 API 速率限制大幅上涨。

今天,Anthropic 给 AI 装上了 REM 睡眠,但这场梦才刚开始做。迪克当年真正想问的,也许不是仿生人会不会做梦,而是做完梦之后,它还算不算机器?如果你对 AI 代理与自学习机制的前沿演进感兴趣,云栈社区 上聚集了大量开发者在持续追踪和讨论 AIGCAgent 的最新落地实践,欢迎来一同探讨智能体的“梦境”到底能走多远。

参考资料
https://claude.com/blog/new-in-claude-managed-agents
https://x.com/claudeai/status/2052067399088664981




上一篇:医疗Agent OS落地战:WiseClaw如何让AI在医疗领域长期稳定运行
下一篇:马斯克22万GPU救场Claude速率限制:xAI突遭解散,Gary Marcus却警告GPU将严重过剩
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-7 23:30 , Processed in 0.626692 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表