前段时间有个粉丝去面字节的 Agent 方向岗位,二面的时候面试官问他:“你觉得工作记忆在 Agent 执行任务时,究竟承担什么角色?”
他想了想,给了个大多数人都脱口而出的答案:“就是临时储存信息的地方嘛。”
面试官听完笑了笑,点点头说:“这么说没错,但是不全面。”
他有点懵,不知道该怎么往下接。面试官又换了个角度追问:“那你说说,如果 Agent 同时收到一段文字投诉、一张破损商品图片、还有一段语音留言,工作记忆在这个过程中具体做了什么?”
他挠了挠头,说:“就是……先把它们存起来?”
面试官没有直接否定,只是问了一句:“那存起来之后呢?Agent 怎么决定先看哪个、忽略哪个?怎么把三路信息整合成一个判断?”
他愣了一下,才发现自己从来没认真想过这个问题。他以为工作记忆就是个临时缓存,没想到它还有筛选、推理、规划这些主动作用。
这个问题其实很多人都没答好,今天展开讲。
1. 感知输入的暂存与筛选
字节面试官问的这个场景,挺有代表性的。大多数人第一反应就是“临时储存信息的地方”,这个答案不能说错,但确实没说到点子上。
问题出在哪儿?这种表述把工作记忆降格成了一个被动容器,就像给水管装了个蓄水池。但真正让面试官感兴趣的,是你能不能从认知科学的角度,把它的四重主动作用讲清楚:筛选、推理、规划、装配。这四件事,没有一件是被动发生的。
先来说第一层:感知输入的暂存与筛选。
想象一下面试官描述的那个场景:用户同时发来情绪激烈的文字投诉、一张破损商品图片、还有一段语音留言。三股信息同时涌入,Agent 面临的第一个问题不是“怎么回复”,而是该看什么、该忽略什么。
这就是工作记忆介入的时机。它像一道选择性滤网:文字里的语气助词被过滤掉,图片中破损的具体位置被放大标注,语音里的关键诉求被单独提取出来。工作记忆不是被动保存所有信息,而是主动决定哪些内容值得进入下一步加工。
这里有个细节值得注意。工作记忆和短期记忆在日常语境里经常被混用,但认知心理学家 Alan Baddeley 在 1974 年提出工作记忆理论时,特意做了区分:短期记忆只是“短暂保存信息”,而工作记忆是“在保存的同时进行加工”。就这“加工”两个字,才是关键所在。
换句话说,如果没有这一层过滤机制,Agent 在处理图像时,最初接收到的那些文字信息可能已经悄悄消散了,根本没办法把三路信息整合成一个完整判断。
2. 推理的演算草稿纸
面试官追问的“存起来之后呢”,其实就是在问这第二层。
当 Agent 在判断这笔订单是否满足退款条件时,它需要同时对照多条规则:先从长期记忆里调出售后政策,再拿来和当前订单信息比对。这种“同时摆在台面上看”的动作,就是工作记忆在做的事。
认知科学里有个经典的概念:George Miller 在 1956 年提出的“7±2 法则”——人类工作记忆一次大概能处理 5 到 9 个信息单元。后来的研究修正得更保守,认为真实有效的容量大约只有 4 个“组块”(chunk)。Agent 的上下文窗口本质上是同一个道理,只不过粒度换成了 token。
在推理这个阶段,“用户信誉良好”和“商品破损属实”这两条中间结论,会被暂时挂在工作记忆里,等着被纳入最终判断。它们不是最终答案,而是下一步推论的跳板。
值得一提的是,这和人类思考时用的草稿纸极其相似。你解数学题时,中间步骤写在纸上,不是为了给别人看,而是为了留住下一步还需要用到的东西。Agent 的工作记忆,本质上就是一张数字草稿纸。
3. 规划的推演沙盘
第三层比第二层更有意思。它不只描述“现在是什么状态”,而是预演“如果我这样做会怎么样”。
Agent 生成了两个候选方案:一个是直接退款加道歉,另一个是只补一张优惠券。接下来,它要在工作记忆里分别推演这两条路径的后果,才能选出代价最小、收益最大的选项。
这种“零成本试错”的过程,就是规划能力的核心。退款方案的直接成本是 50 块,但能挽留住一个高价值用户,综合风险权重比较低;优惠券方案省了钱,却可能让用户投诉升级,长期损失反而更大。这两套账,都是在工作记忆里算出来的——不是调用外部工具,也不是等到真正执行完了才知道结果。
有趣的是,这跟棋手落子前的思考方式几乎同构:不是随机试错,而是在脑子里同时维持多个假设状态,逐一评估代价再做决定。Agent 在工作记忆里做的,正是这种受控的假设推演。
4. 行动与验证的装配车间
方案选定之后,最后一层就是把结论变成可以发送出去的内容。
这封回信需要同时包含三个部分:有温度的道歉语句、退款订单的链接、赔偿说明。三个组件各自有语气、有格式要求,还得互相配合,读起来要像一个人说的话,而不是三段话拼凑在一起。工作记忆在这里充当的,就是装配线上的组装台。
但这个台子有面积上限。如果输入信息太多,早先暂存的内容就会被新内容挤出去。道歉语句还没写完,链接就覆盖进来了。最终发出去的,可能就是一封语义断裂、让用户更加愤怒的回复。
这正是工作记忆最核心的工程约束:它既是引擎,也是瓶颈。
关于“瓶颈”这件事,值得多说两句。ChatGPT 刚推出来时,上下文窗口只有 4K token。到了 2025 年,主流模型已经普遍支持 128K token,部分前沿模型甚至突破了百万 token。但窗口变大,并不意味着问题消失。研究发现,随着上下文变长,模型在中间位置的信息上准确率会明显下降,这个现象被称为“上下文衰减”。
换句话说,工作记忆越大,不一定就越好用。管理它的策略,才是真正的技术难点。
目前工程上的主流解法是:引入注意力筛选机制来压缩高价值信息,再配合 RAG(检索增强生成),把重要结论写入外部长期记忆,需要时再检索回来。这就是工作记忆和长期记忆之间那条双向通道的意义——不是简单地“存”和“取”,而是在每次任务中动态决定什么值得被记住、什么可以被丢弃。
回到面试现场。如果你只是说“工作记忆就是个临时记事本”,这道题就已经答完了,而且是答错了。
真正的回答应该把它的四层作用展开来讲:感知过滤、推理草稿、规划沙盘、装配验证。并且要能指出它的核心矛盾:它既是 Agent 思维的舞台,也是制约 Agent 能力上限的瓶颈。
在我看来,理解工作记忆最关键的一点,不是它能装多少,而是它在装满之前,能做多少有意义的事。这个维度,才是区分一个“会用 Agent”的工程师和一个“理解 Agent”的架构师之间,真正的分水岭。
你遇到过这个问题吗?到 云栈社区 聊聊你的理解。