找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5180

积分

0

好友

704

主题
发表于 2 小时前 | 查看: 5| 回复: 0

郝建业教授

离开华为后,郝建业创立MemoraX AI,出任斗象科技首席AI安全科学家,横跨学术界与产业界,称得上是一位“学者型硬核创业者”。

这位85后教授曾远赴麻省理工学院(MIT)从事博士后研究,是国内最早一批深度强化学习研究者。2015年回国后,他在天津大学创办了国内最早的深度强化学习实验室之一。近两年,其团队在ICML、NeurIPS等顶级会议的论文产出位列全球前十,谷歌学术引用超1.5万次。

2019年加入华为后,郝建业担任华为大模型算法实验室主任、决策推理实验室主任,把多智能体强化学习技术推进到自动驾驶、芯片设计、无线网络优化等硬核工业场景。

脱去“华为决策智能首席专家”光环后,他把目光聚焦在两个新的方向上——AI记忆和AI安全。在他看来,记忆和安全都不是大模型“捎带手”就能解决的问题,而是一个需要独立攻坚的技术领域,是决定智能体能否真正走进生产系统的关键。

在交流中,郝建业教授一针见血地指出:“智能体要先补齐记忆、安全以及整套Harness框架这三项底层能力,企业和用户才敢真正把它部署到垂直领域的核心生产系统中,真正落地使用,实实在在提升行业工作效率和研发效率。”

以下为对话实录,经FreeBuf编辑整理发布。

停留在小场景里的技术,不是终点

FreeBuf: 你长期聚焦强化学习,不过很多人第一次感受到强化学习的魅力是AlphaGo。对你来说,有没有一个更早期的时刻,让你真正相信“让机器通过试错来学习决策”这件事值得投入十几年?

郝建业: 我在博士阶段就一直在做用强化学习解决复杂智能体博弈的研究。那时候深度学习还没兴起,整个学术界还依托传统表格型强化学习,技术更多停留在小场景验证。

真正的转折是2013到2015年间。深度学习兴起,AlphaGo的出现将深度学习强大的表征能力与强化学习擅长长周期序列决策、试错进化的能力结合在一起,一下子突破了大家对传统强化学习的认知。强化学习不再只是实验室里的算法,它完全有能力解决现实世界里复杂、长期、需要自主博弈和决策的难题。

恰好那时我回国加入天津大学,创办了国内最早一批深度强化学习实验室。之后和网易伏羲AI Lab深度合作,把强化学习落地到游戏智能体生成和自动化测试场景里,相关成果还拿了中国图像图形学会科技进步一等奖。

从游戏场景到阿里广告推荐,再到腾讯的蛋白质结构生成,后来2019年加入华为,我更是坚定沿着这条路往下走,把强化学习技术落地到自动驾驶、供应链优化、ICT网络优化、芯片设计等关键赛道。

技术怎么能永远待在实验室里?它必须走出去,真正助力解决国家工业领域的卡脖子难题。

现实世界本身就是一套复杂的多智能体系统

FreeBuf: 你在多智能体领域深耕多年,并多次在国际竞赛中夺冠。多智能体系统最吸引你的究竟是什么?

郝建业: 现实世界本身就是一套复杂的多智能体系统。不管是人类社会,还是我们构建的复杂工业系统,背后都可以抽象成多智能体模型。每一个智能体代表独立利益主体,彼此之间既协作也竞争,最终共同完成系统级目标。这就要求我们必须站在系统全局的视角去思考、去设计,让整个整体尽可能实现最优,这也是多智能体领域最核心、最本质的科学问题。

这套理论有极强的落地价值。过去十年,我们一直致力于把多智能体的思想和理论,落地建模到各行各业的工业系统中,实现系统级的全局优化。

比如早期和阿里合作的广告推荐算法,本身就是广告主、用户、平台三方之间的复杂博弈。通过多智能体博弈建模,我们能在保障消费者体验和广告主投放利益的前提下,有效提升平台整体效率,实现三方利益的均衡最优。

到了华为,我把它用到了更硬核的场景。比如自动驾驶——把自动驾驶车辆、人类驾驶车辆、行人都抽象成不同智能体,把路口交汇这种复杂场景建模成多智能体博弈问题。用博弈理论对自动驾驶行为做建模和优化决策,大幅提升出行安全和驾乘体验。

无线网络优化也是同理。把不同基站看作相互协同的智能体,用合作式多智能体强化学习技术,提升整个无线网络的整体优化效率,同时大幅减少人工调优的成本。

从学术理论到产业实践的转向

FreeBuf: 你一直聚焦深度强化学习、多智能体系统等前沿方向的研究,也取得很多的学术成就。是什么样的契机让你意识到要突破理论研究,推动物理世界的应用场景落地,并花费大量时间去做这件事的?

郝建业: 加入华为之前,我们在高校实验室阶段就已经和工业界有广泛深入的产学研合作。除了之前提到的担任网易伏羲AI Lab顾问之外,我们和阿里、腾讯也一直有着非常紧密的科研合作。很多研究生在读期间,都会被选派到各家企业的技术团队去实习,深度参与联合科研课题。

不过那个阶段,强化学习和多智能体技术落地,基本都集中在游戏、广告、推荐这类互联网虚拟场景里,本质上还是处在纯仿真的数字虚拟世界。虽然技术在这些场景里验证得很成熟,但我当时一直在思考:这类技术还很难真正成为通用技术,没法在更多真实物理场景里大规模落地。停留在虚拟场景里的成功,不是真正的落地。

那时候我心里一直有个想法,希望能把强化学习真正推向复杂的物理工业场景,实现规模化落地应用。2019年加入华为,对我来说是一个分水岭。我们用了六七年时间,把强化学习技术全面落地到自动驾驶、无线网络优化、供应链调度、芯片设计这些复杂工业领域。同时沉淀形成了一套成熟可复用的“黑盒优化+白盒优化”通用算法平台。

这件事的意义在于,我们证明了一件事:强化学习可以走出游戏和推荐系统,走进看得见摸得着的物理世界。

没有记忆基础设施,Agent就走不进生产系统

FreeBuf: 现在大模型已经展现了惊人的知识储备和推理能力,很多人觉得“记忆”无非是更大的上下文窗口或更好的RAG。在你看来,记忆为什么不是一个可以“捎带手解决”的问题,而是一个独立技术领域?以至于专门成立了一家公司来解决这个问题?

郝建业: 当下大模型在单轮内容生成、数学推理、代码编写上确实得到了非常显著的提升。但仔细看它的底层架构,基于Attention机制的Transformer,这个架构本质上就存在难以突破的瓶颈。

即便现在上下文窗口长度已经能拓展到百万级别的量级,可窗口长度一旦不断拉长,模型的运行性能就会出现急剧下降,这不是工程优化能解决的问题,而是架构本身决定的固有问题。

更关键的是,在绝大多数真实应用场景中,用户和大模型进行持续深度交互时,产生的交互内容长度会远远超出基础大模型能支撑的上限。你今天聊了5000字,明天接着聊5000字,后天再聊5000字——这些信息怎么沉淀?怎么在需要的时候被准确调取?现有的基础大模型做不到。

想要破解这个难题,就必须借助专门的模型,对超长上下文做自适应、高效的管理,以此解决基础大模型自身无法攻克的超长上下文瓶颈。所以记忆不是一个“加大窗口”的问题。它是一个需要专门模型来做的独立课题。

FreeBuf: 所以,你们走了一条和主流路线完全不同的路?

郝建业: 对。主流做法是搞一个工作流,搭配外部数据库来管理上下文。我们不走这条路。我们主张通过模型内生内化、数据驱动学习的方式,专门训练具备优质记忆管理能力的模型,再把它和基础大模型结合,从模型底层实现高效的记忆管理。

外部数据库的做法,相当于你有一本笔记,每次要翻笔记才知道之前聊了什么。我们在做的事,是让模型自己有“记住”的能力——不是翻笔记,是真正长在模型里的记忆。

强化学习,是打开记忆大门的钥匙

FreeBuf: 深度强化学习对于记忆系统来说,具体意味着什么?

郝建业: 想要实现模型内生的记忆管理,打造真正的记忆模型,必须依靠学习的方式来实现。

我们需要针对整个记忆系统,设计不同层面的优化目标,再通过数据驱动的方式,反向去优化记忆系统内部的记忆模型,这和传统大模型的预训练思路有着本质区别。

大家都知道,传统基础大模型训练,能依靠人类专家构建高质量的训练语料,但记忆模型的训练完全做不到这一点。我们没有办法靠人工专家去打造“怎么记住前面3万字对话”的专属优质训练语料,只能通过前面提到的方式,设定合理、适配的系统优化目标,借助强化学习的方式,反向迭代优化记忆模型的参数。

从这个技术逻辑来看,深度强化学习技术,或者说Agentic RL技术,就是实现模型内生记忆系统最核心、最不可或缺的优化手段。

你不可能用监督学习教会模型“记住”。记忆本质上是一个序列决策问题:什么该记、什么该忘、什么时候调取什么信息——这天然是强化学习的领地。

未来Agent需要具备的两块拼图:记忆和安全

FreeBuf: 在你看来,Agent未来应该采取什么样的“核心认知架构”?

郝建业: 最近以OpenAI(小龙虾)为代表的Agent生态确实非常火爆。在我看来,现在Agent的发展,一方面是通过提供了更完善的技术脚手架,基于大模型强大的工具调用能力和复杂任务执行能力,让智能体能够替代或者辅助人类完成越来越多的工作任务。

但与此同时,当下Agent生态最需要补齐的核心短板,主要集中在两个关键方向:

第一是记忆能力。也就是我们刚才聊到的,如何在用户长期使用Agent的过程中,让它具备处理超长对话上下文、沉淀和复用用户长期交互信息的能力。

第二是安全对齐能力。要从技术上约束智能体,避免产生损害用户利益、或者行为不可预测、不可控的风险,保证Agent的行为始终安全、可靠、可控。

FreeBuf: 说到安全,最近Claude Code展现了令人震撼的自主漏洞发现能力,AISI把它的能力描述为从“智能助手”到“数字佣兵”的进化。AI在代码审计、漏洞挖掘自动化方面展现了令人震撼的能力,你认为核心原因是什么?

郝建业: 两个层面。一方面是大模型基座自身的能力在持续变强,已经跨过了一个全新的能力阈值。要构建一套优秀的攻防系统,首先基座大模型必须具备很强的代码漏洞感知、检测和发现能力,这是最基础最关键的前提。

其次,在具备基础漏洞识别能力之后,更核心的是让智能体能够熟练调用各类工具,根据场景上下文自主组合工具、规划完整攻击路径,最终达成攻防目标。这个过程,非常考验智能体的任务编排与自主调度的Harness能力。

同时在这种超长链路的攻防推演过程中,还需要智能体能够对漫长历史交互、多轮探索中积累的海量信息,进行归纳、提炼和复盘总结,做到高效自主探索,从而大幅提升超长链路下攻防任务的整体成功率。

这又回到了刚才聊的问题——记忆。攻防场景对Agent的能力要求,和我说的那两个短板完全重叠:它需要记忆能力,也需要安全对齐。这两块没做好,Agent要么“记不住”,要么“管不住”。

后花园里的demo,不叫落地

FreeBuf: 在2023年,大多数人觉得大模型已经是“终局”,现在看它更像“新操作系统”,真正的应用层落地才刚刚开始。接下来1到3年,能在高附加值场景跑通的智能体会以什么形态出现?是专业的垂直Agent,还是通用的大一统工作站?

郝建业: 我认为未来一定会出现越来越通用的智能体入口,也有人把它看作是下一代操作系统的形态。

但短期,一定是百花齐放的生态格局,市面上会涌现出各式各样的下一代智能体入口。因为目前Agent在记忆、安全这些关键能力上还有明显短板,远没到统一标准、一家独大的阶段。

随着这类智能体入口平台逐步走向成熟,各行各业也一定会催生出大量全新的应用形态。但我始终认为,最关键的一点是:智能体必须能够真正走进各垂直领域的生产系统,而不是停留在demo和演示层面。

现在很多Agent应用,打个比方,就像把东西摆在自家后花园里做试验,只敢在隔离的仿真环境里跑一跑,却不敢真正放进真实业务、真实生产环境里去做操控和执行。这样的Agent,做得再漂亮,也是温室里的花。

所以归根结底,还是要先补齐记忆、安全以及整套Harness框架这些核心底层能力。只有把这些基础能力做扎实,企业和用户才敢放心把智能体部署到自己的垂域生产系统中,真正落地使用,实实在在提升行业工作效率和研发效率。




上一篇:Chainlit框架任意文件读取漏洞CVE-2026-22218深度剖析与修复
下一篇:三步构建职场盟友关系:自然破冰、雪中送炭与利益绑定
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-7 07:58 , Processed in 0.631571 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表