找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3989

积分

0

好友

527

主题
发表于 2 小时前 | 查看: 4| 回复: 0

四位嘉宾在播客录制现场的访谈场景

提示词调到极致,也比不上等一个新版本。这是 Engram 联合创始人 Dan Biderman 的判断,也是这家公司创立的起点——当整个行业都在卷上下文工程、RAG、工具调用,Biderman 和他的搭档 Jessy Lin 却把目光投向了另一条路:训练。不是训练更聪明的模型,而是训练模型去记住你。

Biderman 出身神经科学,Lin 来自 NLP 与认知计算方向,两人组建了一支小而精的团队,成立了一家被称为“Neolab”的新兴 AI 实验室。Engram 不做通用大模型,它的客户是每一家需要让 AI 真正理解自身业务的团队——Notion、Microsoft、Harvey 等公司已经在用它训练自己的“专属模型”,让引擎不仅仅是回答问题,而是像一个老员工一样,记住每一次决策、每一轮迭代和每一个领域特有的暗知识。

在本期 45 分钟的播客专访中,两位风投背景的主持人带着一个核心问题追问到底:当 AI 模型已经足够聪明,下一个瓶颈是什么?Engram 的回答很干脆——记忆。不是把更多东西塞进上下文窗口,而是让记忆刻进模型的权重里。

本文编译自 YouTube 播客专访《Memory and Continual Learning: Engram's Dan Biderman and Jessy Lin》。以下是完整编译。

抽象装饰图形

1. “我们的模型始终在训练”——打破预训练与后训练的边界

Engram 官网有一句话让主持人一开始就追问:“我们不从预训练或后训练的视角看世界。我们的模型始终在训练。”

这是什么意思?

Jessy Lin 的解释直接:“今天的模型已经非常聪明了。但让这些模型更有用的瓶颈,不再是原始智能,而是理解新的、持续变化的上下文——比如你正在做的新任务,或者某个公司特有的工作方式。问题是:我们怎么把这些东西烘焙进模型的权重里,就像预训练把‘法国首都是巴黎’烘焙进去一样深?”

Dan 用一个更感性的比喻补充道:“就像我们人类,每天睡一觉,第二天回到工作上,大脑里不只有笔记,还有一种新的直觉——知道该往哪儿看,该怎么想。现在的 AI 解决方案,都是外部化记忆:把东西写进上下文、写进笔记。但这有两个问题:第一,你每天产生的 token 很快会到达数千万级别,检索成本极高;第二,外部记忆没有真正的理解,只有查找。”

两人的共识是:上下文工程(context engineering)、RAG、工具调用——这些都有价值,但有一个严重被低估的工具:训练。用和前沿实验室训练顶级数学/代码模型同样的方式,去训练任何一个垂直领域、任何一家公司的私有数据。

抽象装饰图形

2. Engram 架构:把公司知识“烘焙”进模型权重

Engram 做的事情,用一句话概括:训练每个团队的专属模型,让它深度理解这个团队的上下文,并随时间持续进化。

Jessy 描述了产品的工作方式:他们接入 Notion、Microsoft、Harvey 这类有大量长期工作数据的平台,把其中的文档、对话、反馈——这些人们日常工作产生的原始信号——转化为训练数据,然后通过 LoRA(低秩自适应)等 adapter 微调技术,把这些知识烘焙进模型的权重。

目标不是“在推理时把文件读一遍”,而是让模型像一个在公司工作了多年的老员工那样理解公司:

  • 知道公司的各项战略方向
  • 理解这里特有的做事方式
  • 熟悉招聘流程、写作风格、内部惯例
  • 能够在不检索任何文档的情况下,直接给出准确答案

Dan 给出了一个量化的冲击感:当前最好的前沿模型,要回答一个关于公司内部知识的问题,可能需要消耗 10 万个 token 来检索和推理;而 Engram 训练好之后,同样的问题可能只需要 100 个 token——节省幅度可达 100 倍,不是 50%,是两个数量级。

技术上,Engram 需要白盒访问模型权重,因此更偏向开源模型,同时也可以与有闭源权重的公司合作。任何基于 Transformer 架构的模型,都可以接受 Engram 的处理。

Engram方案与人脑记忆、传统数据库/RAG信息融合流程示意图

抽象装饰图形

3. 记忆到底该不该放进权重?——RAG 的局限

一个绕不开的问题是:RAG(检索增强生成)难道不能解决这个问题吗?

主持人追问,Dan 给出了一个精妙的类比:

“你需要内化你家的门禁密码吗?需要,因为你每天用。你需要内化去年在某家酒店的房间号吗?不需要,写下来就好。”

但他随即指出 RAG 的核心局限:你知道自己该搜什么吗?

检索系统解决的是“存什么、放哪里”的问题,但真正难的是“知道该找什么”。很多时候,有价值的关联是无法被预先查询的——比如,当你看到团队某人在做某个研究方向,你凭直觉想起另一个相关的事情,这种“不请自来”的联想,只能发生在权重里,无法发生在检索系统里。

Jessy 补充了另一个角度:如果你总是依赖 RAG,你就永远在做静态检索,无法在知识上做累积和组合。“就像你总是重新看笔记,而不是真正消化——你的理解永远不会加深。”

Dan 更直接地说:Engram 的方向,是某种意义上的 “RAG killer”——不是说 RAG 没价值,而是对于那些需要被真正内化的知识,训练进权重是更优的选择。

抽象装饰图形

4. 什么叫“重要的事才记”——遗忘是智能的一部分

一个深层的哲学问题浮出水面:大模型把所有事实都记进权重,这是 feature 还是 bug?

Jessy 给出了她的看法:“你不可能把事实记忆和技能记忆完全分离。有些研究者尝试过把模型里的‘事实’都剥离出去,只保留‘算法能力’——结果模型变得非常不自然,连基本问题都答不上来。你需要内化一些东西,才能在它们之上构建更抽象的概念。”

但她也承认了问题的核心:不是所有事实都值得记。现有的学术 benchmark 常常要求模型记住“某个非洲国家某座桥的长度”——这种信息毫无必要占用模型的容量。

Dan 用神经科学视角切入:“人类记忆是有损的(lossy)。这不是缺陷,这是智能的一部分——压缩重要的,过滤不重要的。深度学习的魔法恰恰在于:梯度下降能把海量信息压缩进极少数的参数里。70B 的 Llama 模型,参数文件大约 100GB,却能记住整个互联网的精华;但如果只是缓存一篇泰勒·斯威夫特的维基百科文章的 KV cache,就需要 80GB 的 GPU 内存——你把几十 KB 的文字变成了 80GB 的‘大脑状态’。”

他的结论是:训练就是压缩。 如果能把那 80GB 离线压缩成几百兆,加载速度会快 1000 倍,这对整个推理基础设施都有颠覆性的意义。

创意插画:写作与灵感星芒

抽象装饰图形

5. 为什么大模型厂商自己不做这件事?

主持人问了一个尖锐的问题:OpenAI、Anthropic 这些前沿实验室,为什么不自己把持续学习做掉?

Dan 的回答很坦率:

“前沿实验室的 P0 是 AGI——一个在编程和数学上极度通用的超级模型。要推进这个,路径是明确的:更多预训练、更大模型、更多数据、更多 RL、更多推理计算。这是他们 95% 的精力和资金所在。”

他并不认为大厂没在想记忆和持续学习——事实上,DeepMind 的 Demis Hassabis 在 Sequoia 活动上明确说过“这个领域需要新突破”——但对大厂来说,这更多是一个产品层面的问题,还没有被当作核心研究挑战来攻克。

Jessy 补充了另一个维度:这个问题需要研究和产品的深度整合。在大厂的现有模式里,研究者训好模型,扔给产品团队,产品团队再做上下文工程和提示词工程。但在 Engram 的世界里,用户的每一次交互就是训练信号——研究和产品必须在同一个闭环里运转,这是一种完全不同的组织方式。

她还提到了另一个结构性差异:每个人、每家公司想要的东西,往往是私有的、冲突的。“我的写作风格和你的不一样,我的工作流和你公司的也不一样。这些东西永远不会出现在任何后训练数据集里。”

抽象装饰图形

6. 记忆钱包、个人模型与终极愿景

对话的最后,主持人提出了一个有趣的畅想:既然我们现在有“token 钱包”可以带着走,未来会不会有“记忆钱包”——把你在某家公司学到的技能、养成的工作方式,带到下一份工作?

Dan 认为这是终极圣杯之一:

“你在工作中创造了大量价值,IP 和机密留给公司,但你自己学到的技能、你独特的思考方式——某种经过‘消毒处理’的东西——应该能带走。我们在生物层面一直这样做,只是靠 NDA 和职业道德来约束。数字化版本会更有意思,因为它会迫使每个人把 AI 更深地融入自己的工作,然后因此获得回报。”

Jessy 的愿景则更具体:人人都有自己的模型——真正不同于别人的模型,不同于前沿模型,服务于你个人或你的团队。

Dan 用神经科学里的一个发现收尾:大脑中负责记忆和负责导航的神经回路,几乎是同一套——记忆本质上是一种在认知空间里的导航。他想象中的 Engram,是一个“神经接口”——不是文件系统的索引,而是对整个数据平面的大脑状态表示,关联性更强、效率更高、更贴近人类理解信息的方式。

“这有点像 Databricks 或 Oracle,”他说,“只不过我们存的是神经记忆,模型是个性化的,而且会有数亿个。”

抽象装饰图形

7. 语言 vs 视觉——一个“疯狂理论”

播客临近尾声,主持人 Sean 分享了他酝酿已久的“疯帽子理论”:

为什么语言模型最终超越了视觉模型?他的假设是:在生物界,视觉的信息带宽远超语言(光子 vs 声波),所以大脑把更多的“计算资源”分配给视觉。但在计算机世界里,一切都是电子信号,视觉和语言的处理成本被“拉平”了——语言模型因此获得了在生物界不曾有过的公平竞争机会。

Dan 和 Jessy 认为这个方向有一定道理,但也提醒:人类现在做的大量知识工作(写备忘录、读文档、和 AI 聊天)本来就不是进化设计的——我们的大脑并不为这些任务优化,但语言 AI 恰好很擅长。视觉在图像/视频领域仍有巨大潜力,但在知识工作的战场上,语言暂时占优。

原文链接: https://www.youtube.com/watch?v=aiR7F4jqjXY

在这个技术方向上的探讨,也让我们看到,像云栈社区这样的开发者平台,未来或许会成为承载无数“个人模型”与“团队模型”交流与进化的关键阵地。

加减乘除的图标




上一篇:resume-template 开源简历模板:不懂 LaTeX 也能借助 AI 生成高质量 PDF
下一篇:告别枯燥问答:用Codex将历史、生物知识一键可视化的完整工作流
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-27 03:02 , Processed in 0.736531 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表