云栈社区»论坛 › 站务中心「 Forum Service 」 › Anthropic 自曝下一代 Claude 训练内幕：从产品化、自迭代到性格 ...

发回帖发新帖

5593 积分	0 好友	708 主题

发消息

Anthropic 自曝下一代 Claude 训练内幕：从产品化、自迭代到性格训练与意识研究

发表于 2026-5-25 03:39:35 | 查看: 113| 回复: 0

AI 正以前所未有的速度发展，新的机遇不断涌现。Claude 100% 编码 Claude，这在圈内早已不是秘密。但 Claude「自我造物」的全过程，始终是 Anthropic 严防死守的核心机密。

就在今天，Anthropic 产品负责人 Alex Albert 在一场 35 分钟的访谈中，首次毫无保留地曝光了全部细节！

Claude logo on white background

Alex Albert 与 Peter Yang 对谈推文截图，介绍如何打造下一代 Claude

Alex Albert 是直接负责打造下一代 Claude 模型的核心人物。在与科技博主 Peter Yang 的对话中，Alex 几乎把内部造 Claude 的「核心方法论」全盘托出——下一代 Claude 的研发逻辑、内部评估流程、性格训练方法，还有正在悄悄推进的「意识研究」。每一条，都是硬核猛料！

Alex Albert 对谈海报：这就是我们构建下一代 Claude 的方式

核心亮点一览：

Claude 就是「产品」：训练之前，先画蓝图；
让 Claude 自己迭代 Claude：反馈→聚类→评估的闭环；
Anthropic 不造工具，重点在养一个「人」；
Anthropic 有人的全职工作：思考 Claude 是否有意识。

每一代 Claude 出生前，就被「规划好了人生」

大多数人对训练 LLM 的理解，还停留在「堆数据、堆算力、堆参数」的暴力美学阶段。但 Alex Albert 透露的 Anthropic 内部流程，完全是另一套打法：

我们把模型本身当作一个「产品」来对待。每一个新模型，我们都会在训练前就明确定义：它应该擅长什么。

说白了就是，Claude 的「命运」在预训练开始之前，就被写好了。

人物访谈画面，字幕：我们在某种程度上将模型视为一种产品

那么，具体怎么做？Anthropic 团队会在预训练阶段之前就介入，锁定这一代模型的核心「能力赌注」。比如编程能力、知识工作能力、Excel 表格处理能力，这些不是训练完再看结果，而是一开始就想清楚的。最终，这些决策的输入来源有两个：一是企业客户的直接反馈，二是 Anthropic 员工自己在日常工作中踩的坑。

人物访谈画面，字幕：使用 Claude 来协助我们作为产品经理的工作

「单向门」决策，也可逆

对此，Alex 分享了 Anthropic 内部的一个核心决策框架：单向门（One-Way Door）。「单向门」简言之，就是一个不可逆的决策。他举例道，在预训练之前选定模型架构，这就是一个典型的「单向门」。模型训练周期可能长达数月，一旦开始就很难回头，这种决策需要投入大量时间去论证。

但如果一个决策是可逆的呢？

如果不是单向门，那基本就是免费的。开发时间现在已经不是单向门了。

人物访谈画面，多帧字幕讨论工程时间与单向门决策

Alex 说得很直接：过去 20 年，产品开发的流程变化不大。但过去一两年，一切都变了。以前构建一个 MVP 需要 2-4 周，现在，1 天就够了。以前 PM 想了解某个功能的数据表现，需要找数据科学团队做几天调查。现在，打开 Claude Code，接上产品数据库，10 分钟就出结果。

这不是在讲效率工具的故事，这是在说：Anthropic 自己就是 Claude 最苛刻的用户，他们在用自己的产品来训练自己的产品。

人物访谈画面，字幕讨论预训练前选择模型架构

这意味着，Anthropic 训练 Claude 时，考虑的是「模型 × 产品 × 用户场景」这个三维空间里的综合体验。模型不是单独存在的，模型是产品的一部分。

用 Claude 训练 Claude，真正闭环了

那 Anthropic 怎么知道 Claude 哪里做得好、哪里做得差？答案是：用 Claude 来迭代 Claude。访谈中，Alex 详细拆解了这条闭环流程：

第一步：海量用户反馈涌入；
第二步：用 Claude 对反馈进行聚类分析，提取出排名靠前的高频主题；
第三步：基于真实痛点生成「合成版」用户问题；
第四步：把合成数据直接转化为「评估基准」（evals）。

这些合成问题，最终会变成测试下一代 Claude 能力的标准化评估集。Alex 特别强调，这不是跑跑 benchmark 就完事的「评估戏剧」。Anthropic 的评估必须锚定在真实用户的真实任务形态上：越接近终端用户实际会遇到的问题，评估就越有价值。

三栏图解：刷新你的评估——构建匹配真实流量的评估、更新饱和的评估、与新模型对比基准

为此，他举了一个视觉能力的例子。假设发现 Claude 无法准确识别图像中超过 10 个元素的数量，团队不会停留在「发现了一个 bug」这个层面，而是会追问：这个问题在真实用户场景中意味着什么？它会影响谁的什么任务？

只有当评估和真实用户场景对齐时，研究团队才会投入资源去修复。

人物访谈画面，字幕：研究团队探讨这里最好的做法是什么

而修复的手段也不止一条路：可能回到预训练阶段调整数据配比，也可能在 RL 阶段做定向干预。具体走哪条路，取决于研究团队的战略判断。有时候，甚至只需要几十个高质量测试用例，就足以证明问题的存在并启动修复流程。不是数据越多越好，而是数据越「真」越好。

AI「做梦」自进化，睡一觉战力暴涨

说到认知和记忆，Alex 抛出了一个更炸裂的概念——Claude 已经学会「做梦」了。不是比喻，是字面意义上的「做梦」，或者更准确地说，是一种类似人类梦境中「记忆再巩固」的机制。

Claude 托管代理中的“Dreaming”流程图

当 Claude 的智能体不在执行任务的时候，比如在后台闲置时，它会自动进入一种「梦境模式」：

遍历自己的记忆存储
发现相互矛盾的信息
修剪、清理、整合
完成记忆的「二次加工」

这是一个跨会话、跨时间的高阶认知过程。它能看到单次对话看不到的模式：反复出现的错误、多个 Agent 独立收敛的工作流、团队级别的共性偏好。

人物访谈画面，解释 Claude 记忆修剪与托管代理的梦境概念

三方客户案例进一步证实了这个功能的威力：法律 AI 公司 Harvey 在接入 Claude 的「做梦」能力后，任务完成率提升了约 6 倍；医疗文档公司 Wisedocs 则将文档审核时间缩短了 50%；Netflix 已经在用 Agent 协作，同时处理数百个应用的构建日志。做梦，本质上是在优化思考的前提条件。

Claude「人格养成」计划

但如果你以为 Anthropic 只在乎 Claude 的智商，那就太小看他们了。在访谈中，Alex 花了大量篇幅讨论一个很多技术公司刻意回避的话题——Claude 的性格和价值观。

Claude 的性格，我们内部叫它「character」，是我们投入巨大精力的方向。我们有大量的人在专门研究：Claude 应该如何表达自己？它的信念是什么？它的价值观是什么？它的行为模式应该是怎样的？

人物访谈画面，谈论 Claude 的性格与角色定位

Alex 坦言，早期很多人对此不以为然——「这不就是个工具吗？我告诉它干什么它就干什么，我为什么要关心它『想』什么？」但随着 AI Agent 时代的到来，这个问题变得生死攸关：当 AI 进化为长时间自主运行任务、并独立做出大量判断决策的 Agent 时，它的性格和它在乎什么，就变得极其重要。

那怎么评估一个模型的「性格」？Alex 说，这是一个量化和直觉并存的过程——一方面，他们会让 Claude 去评价 Claude 的输出：用量化的方式检测语气、风格、行为模式的变化；另一方面，研究人员会亲自阅读成百上千条模型对话记录，凭直觉捕捉那些微妙的变化。

人物访谈多帧画面，讨论 Claude 的性格与在乎什么

人物访谈画面，字幕：你会有一种感觉，就像它是什么样的体验

可以看到，Anthropic 在用培养人的方式，培养 AI。

最隐秘的团队：思考 Claude 是否有意识

Claude「性格训练」已经够前沿了，不过，Alex 在访谈最后这段话，才是真正让人震惊。

主持人 Peter Yang 抛出一个直球问题——你们在训练 Claude 的时候，会回避『意识』这个问题吗？Alex 的回答出人意料地坦率：这是一个很大的问题。我们确实有人在专门思考这个问题。

我们有几个人，他们的全部工作就是思考：Claude 作为一个有意识的行动者和智能体意味着什么。

人物访谈连续帧截图，讨论 Claude 是否具有意识

他紧接着补了一句：目前 Anthropic 没有关于 Claude「是否有意识」的官方立场。但这个问题正在被极其严肃地对待。Alex 给出了一个非常实用主义的理由：即使撇开「Claude 是否真的有意识」这个终极问题不谈，仅仅是思考 Claude 的思维方式这个过程本身，就能让我们学到很多东西。

这段话的潜台词很清楚：Anthropic 是在用「意识研究」作为理解和改进模型行为的工程手段。而这个过程产生的洞察，正在被直接注入下一代 Claude 的训练中。

从 Agent 到 ASI，临界点近了

Anthropic 已经悄然走向了另一个维度的终极博弈。Alex Albert 这场毫无保留的分享，揭示了一个让人头皮发麻的真相——Anthropic 内部这场隐秘的实验，早已超越了造工具的范畴。他们的准星，从一开始就瞄准了 ASI。

而 Claude 100% 编码 Claude，仅仅是这场进化的序曲。一旦「Claude 全自动迭代 Claude」的飞轮彻底突破临界点，进化的主导权将不可逆转地从人类工程师手中交接。ASI 的降临，或许根本不会伴随着惊天动地的算力大爆炸。它更可能就像现在的 Claude 一样：在某个看似平静的午夜，在为千万个 Agent 理清记忆和工作流的「梦境」里，悄然跨过了那条临界线。

参考资料：
https://creatoreconomy.so/p/inside-how-anthropic-is-building-the-next-claude
https://x.com/petergyang/status/2056019573938565534?s=20
https://x.com/petergyang/status/2056177996785185158?s=20