云栈社区»论坛 › 开发者广场「Dev Plaza」 › GUI Agent技术前沿：对话AGI的等价物、基准测试与未来挑战 ...

发回帖发新帖

3831 积分	0 好友	529 主题

发消息

GUI Agent技术前沿：对话AGI的等价物、基准测试与未来挑战

发表于 2026-1-19 10:25:14 | 查看: 67| 回复: 0

新年假期，我们邀请到两位在GUI Agent领域前沿的探索者，展开了一场深度对话。他们分别是：

X：大模型智能体和GUI智能体从业者/研究者。
谢天宝：香港大学博士生，专注NLP/LLM/Agent（OSWorld等项目的作者）。

我们广泛讨论了十余个关键话题，以下是本次对话的核心内容整理。

一、模型与 Benchmark 的发展现状

Tianbao（模型侧观察）

近一两年主要研究计算机使用智能体（computer use agent），涉及框架制定、基准测试（Benchmark）等。近期关注概念拓展与能力整合（coding、深度研究、计算机使用智能体合版），工作偏工程化。

国外的GUI模型，Claude在computer use领域表现最佳，其专门团队方案自成一体。Manus的成功也与此相关。OpenAI有些开局巅峰，后续进展不确定。

Claude in Chrome浏览器界面截图

国内做得较好的是UI-TARS和AutoGLM。UI-TARS更偏computer use，AutoGLM更偏移动端使用。美团和通义千问也在布局。

国内目前仍处于堆数据阶段，部分团队已搭建强化学习（RL）基础设施并积累经验，但尚处于纯GUI状态，未完成合版。现状是：合版在做但未完成，RL在做但未完善，数据在续但未跟上。目前较少团队打通了全链路。

关于评估标准，半年前我们还在关注模型能否点准。现在这种情况已大幅减少。

现阶段我会通过中长程任务评估模型，如30步、50步、100步点击的任务。评估维度包括：第一，任务完成度——模型能否完成长任务且不迷失，犯错后能否恢复；第二，任务效率——我15步能完成的事，模型理想状态不应超过15步，但目前通常需要50步。

在Benchmark以外的任务上，任务完成度仍然不够，任务效率也仍然不够。这本质上是一个工程问题，应可通过扩大规模（scaling）和资源投入解决，预计约一年左右。

X（Benchmark 侧观察）

我们使用OSWorld较多，虽然部分任务标注存在问题，但过去一年整体是比较合适的Benchmark。

但OSWorld目前逐渐暴露出问题。当模型达到70-80分、接近人类性能（human performance）时，会发现其中很多任务与真实用户期待差距较大。

下一阶段的Benchmark需要更全面（comprehensive），更综合地体现模型利用综合工具解决问题的能力。关键是能做自动评估（automatic evaluation）。若无法自动评估，学术界和工业界都不愿使用，因为无法进行日常迭代。

目前较可行的方案是做类似深度研究（deep research）的任务，基于答案做验证较为直接，但任务设计上应是综合任务而非简单信息查找。

本质上我们是在做面向不同职业的Benchmark：AI能多大程度解决某职业普通级别员工的工作内容？若都能达到80%以上，可视为接近AGI。

接下来可能会有更专业（professional）的Benchmark，如SWE-bench本质上就面向程序员。建议选择3-5个未来最易被替代的职业，做能结合计算机使用智能体（CUA）、Coding、API和深度研究解决的Benchmark。

二、Comprehensive vs 垂直 Benchmark 怎么选？

Tianbao

与一些团队交流后发现，当我们想做通用数字智能体（UDA）时，最初想把coding、deep research、computer use、GUI都纳入。但反馈是：若一个Benchmark涉及过多要素，作为工业界指标时很难产生有效信号，在模型早期阶段这个信号缺乏意义。

我们曾考虑去招聘网站分析哪些行业薪资较高、哪些工作可被自动化，再分析哪些能被computer use建模。但发现绝大多数行业的自动化渗透率极低。这些工作包含大量隐式知识，碎片化程度高，难以用单一指令说明。不是数字化自动化状态，中间夹杂很多因素，不利于评估。

因此只能采用取巧的建模方式，但与真实情况存在差距。这种差距难以在benchmark中体现，最终仍只能选取纯GUI任务，存在以偏概全的问题。

X

这个担忧很有意义，说白了还是不够垂直，没办法针对性地构造训练数据、去训练模型。

当前做大模型也不是纯学术研究，最终都要在市场上产生价值。Coding算是成功案例，确实带来了数十亿美元的收入。而且这样做后续去优化才更有意义，顺手就能把监督能力提升了。

而且把一个有代表性的职业做好后，说不定是有泛化性的，能触类旁通。如以前对工具调用没有思路，但coding做好后，很多工具调用能力自然提升。投入大量资源构建综合性benchmark，效果可能仍不理想。

三、设备差异与合版挑战

X

首先，不同设备之间差别较大：

弹窗：手机上遇到弹窗的概率比电脑高，且手机屏幕小，弹窗影响大，不处理无法继续。
权限：手机权限比电脑严格，很多须厂商授权，自行申请困难。电脑相对容易获取。
信息呈现：电脑屏幕大、信息密度高。手机屏幕小但应用繁多。电脑上相对集中，比如国内用户主要使用微信、浏览器、Office，还有一些垂直应用（程序员会用IDE，设计师会用PS）。
用户耐心：手机用户追求快速响应，电脑用户知道在工作，对任务有预期，稍慢也可接受。

这些因素导致虽然技术上有较大相似性，但从模型到产品的设计差异很大。

Tianbao

Mobile和computer use在工程层面有区别，监督微调（SFT）和强化学习（RL）主要差异在数据收集和RL任务设计。

理想情况是组合泛化：学了coding又学了GUI，上电脑时就应该同时具备两种能力。Claude有时能做到，但其他团队的合版效果又都似乎在进步当中，这里面有很多技巧（tricks）。

我觉得这件事肯定没有那么简单。你不能指望只拿一堆SWE数据就把GUI的两类用例全部解决掉。但我们多少相信，模型在互联网上应该见过类似的解法，所以在方法论上是有参照的。

其实如果你真的去深入理解这个问题，会发现很多事情没那么神秘。比如你想做一个PPT、一个Excel，或者一个Word，本质上都是结构化的文本和代码文件。说白了，它和网页在结构上没有本质区别。既然我们已经可以直接合成网页，理论上也就可以直接合成PPT、Word、Excel。

真正的差别在于“质量”和“闭环”。如果你只是直接合成这些文件，效果可能是能用，但未必好。相比之下，如果你在合成之后再叠加GUI能力，就会完全不一样。例如，你生成了一个网页，如果你具备GUI能力，就可以自己去交互、去点、去测，看看哪里不对，再调整。这件事是传统开发很难做到的——你只能一次性生成，生成完就结束了，中间没有反馈，也不形成闭环。

所以这显然不是终极形态。真正要做到位，等于你得把一个前端工程师该做的事情全做了。理论上，我们当然希望GUI训练完成之后，一个“合版”的智能体能把这些事情全部覆盖，但从现实来看，真正能做到的团队非常少。

X

我觉得这块其实和我们做产品、做实际系统的经验是非常一致的。整体一定会经历一个冷启动阶段，以及之后在真实数据上的持续迭代。

冷启动阶段本身就是痛苦的。你首先得让系统“跑起来”，在这个过程中不可避免地会大量使用合成（synthetic）数据。大家其实都是在瞎猜——靠产品经理猜，靠工程师猜，猜用户会怎么想、会怎么用。

但你又不能一直停留在猜的阶段。只有真正跑完冷启动、把东西推上线之后，数据飞轮才会开始发挥一点作用。这里我也想补充一点：过去一两年大家可能对“数据飞轮”这件事有些夸大了。数据飞轮确实在某一个阶段非常有用，但过了那个阶段，很多关键突破还是要靠研究员从头来做。

因为用户行为其实很快就会收敛。很多解决方案会变得相对稳定。但在产品上线之前，你几乎不可能准确预判；一旦上线，各种意想不到的真实请求就会涌进来。而一旦你拿到了这些真实请求，后续的迭代反而会顺很多。因为你等于直接拿到了访问分布，你只需要围绕这个分布去优化就好。

所以整体来看，我还是比较坚定地认为，做智能体（Agent）这件事必须闭环来做。你一定要拿到真实的用户反馈，不管是通过API的形式，还是通过产品本身，否则你就很难进入下一个演化阶段。没有这些反馈，你做出来的东西最终就是一个“没法上桌”的系统。

四、Agent 的终局是什么？

关于Agent的最终形态，我们讨论了两种设想：
第一种是Agent能创建完全满足需求的独立APP，前后端就绪，随时可用。
第二种是Agent能在现存所有环境中执行命令，帮用户完成任务。

X

你问我俩我俩应该还是vote for the second（笑）。

用户其实是非常不愿意改变自己既有工作方式和工具体系的。AI的实际渗透率依然非常低。原因并不复杂：用户并不想为了新技术去重塑自己的工作习惯。

我经常有一个比较残酷的判断——很多新技术或新应用的真正普及，往往需要一代人。它并不是靠线性增长实现的，而是通过代际更替完成的。这个过程在AI身上，我觉得同样很可能会发生。所以即便技术进展得非常快，采用（adoption）这件事也未必像大家想象中那么乐观。

第二个判断，我觉得agent的路径，其实和自动驾驶非常像。回顾自动驾驶早期，当时大概有两条路线：一条是依赖高精地图，让环境适配车；另一条是端到端模型，让车自己去适应真实道路环境。最后哪条路赢了，其实已经很清楚了——一定是车去适应环境。对agent来说也是一样的逻辑。让agent去适应现实环境，一定比要求环境为agent做大规模改造要容易得多。 基础设施投资太重，而一个agent本身是可复制、可规模化的。

当然，agent也很可能会遇到类似自动驾驶的挑战。自动驾驶跑了十年，才算初见曙光。核心原因就是：真实环境极其复杂，你必须在真实环境中路测、采数据、在线训练，才可能真正有效。这本质上是一个强依赖在线数据（online data）的系统。agent其实也是一样的，只是相对来说，它的投入成本和风险比自动驾驶低得多。

技术成熟之后，产品成熟和采用的提升，可能又是另外好几年的事情。而一旦AI真能端到端完成第一类设想，那反过来说，我们今天讨论的这些工具本身也就不再值钱了，人类又会去追求更刺激、更新的东西。

所以我的整体判断是：这套东西大概率会对开发者极其有利，但它不太可能真正出圈，更不太可能成为一个ToC用户普遍采用的产品形态。欢迎对这类前沿技术讨论感兴趣的开发者，到云栈社区的开发者广场板块交流更多想法。

Tianbao

我觉得这里面第一个假设本身其实是比较抽象的：为什么要让AI去写一个新的App，然后再让AI去用这个App？这个目标本身并不清晰。如果你已经具备从头开发一个新App的能力，那你为什么一定要让AI来做这件事，而不是直接解决问题本身？

这件事其实可以和我们之前反复讨论的CLI versus GUI对应起来，本质上是等价的问题。只是相对来说，我会觉得CLI的逻辑更自洽一些。因为如果你的目标只是完成任务，比如订一份外卖，从“世界的本质”来看，这件事无非是几个数据库之间发生状态变化。

但现实世界并不是架空的。真正的约束在于：对方愿意暴露什么接口？社会整体能接受什么形态？你不能只盯着“本质正确”，而忽略现实世界当前是怎么运作的。这里面不仅有技术问题，还有规则、伦理、制度、路径依赖等等因素。

所以我们现在持有的一个基本判断是：事情本身可能是同一件事，但交互界面（interface）可以有很多种。过去几年你也看到过一些尝试，比如AI Pin、Rabbit R1，本质上都是在探索新的interface。结果是什么？科技圈里叫好，但你在大街上几乎看不到有人在用。

这其实影射了一个很现实的问题：让用户、让商家、让整个体系去接受一条“未曾设想过的道路”，把整套系统重新端一遍，是一件他们很难接受的事情。

所有人都会算账。只有当大家在权衡利弊之后，发现这个新形态更合理、更快、更爽，而且是那种前所未有的爽，他们才会真的跳进去。

那这种时刻什么时候会到来？如果我们完全不做GUI，只走CLI路线，也许在未来三到五年，或者五到十年，会出现一个真正的杀手级应用（killer app）。当然，这条路是有风险的，也可能根本走不通。

但一旦我们引入GUI，这个格局就发生变化了。事情就不再是“CLI是否能完全主导”的问题，而更可能走向CLI与GUI的混合形态，或者某种我们现在还没完全看清的中间状态。

五、CLI vs GUI，谁会胜出？

X

Vibe coding目前算不算普及呢？也可能算从来没有普及过，本质上仍然是程序员圈内的工具。全栈开发这件事，本质上和过去写App没有什么区别——真正有强需求的，永远还是开发者，只是他们未来能用更低成本、更高效率去生产应用，从而提升供给。

这点和视频创作工具的演进其实也很像。剪辑工具的简化，并没有让所有人都变成抖音创作者，真正持续创作的仍然是那一批人，只是他们的效率提高了。因为大多数人并不靠这个吃饭，也就没有那么强的动机。

所以短期来看，我对AI的“全民创作”是比较保守的。而一旦AI真能端到端完成这件事，那反过来说，我们今天讨论的这些工具本身也就不再值钱了。

Tianbao

我们的观念是事情本身不变，interface可能有多种。现在格局下谁会先胜利不好判断。我不敢说GUI阵营一定会胜利，但至少是共存状态。我最近其实有了一个新的判断：未来甚至有可能走向纯GUI。

这里背后有一个前提假设，很多人都在提——未来浮点运算（flops）可能会变得不值钱。所谓flops不值钱，意思是算力本身会极度廉价，相比之下，参数（parameter）反而更值钱。对应到模型使用上，就是token的成本会大幅下降。

如果这个前提成立，那我们现在对GUI的一个核心担忧就会被彻底削弱。今天大家之所以偏向CLI，很大程度上是因为效率问题：CLI可能用200个token就能完成的事，GUI可能要用2万个token，看起来极其浪费。但如果未来这两种token消耗在成本上几乎等价，那“浪费”这个指控本身就不成立了。

在这种情况下，就要重新回到一个更现实的问题：用户到底愿不愿意用？从普适性、接受度和“爽感”来看，真的有多少人愿意对着一个终端去coding？除了极少数人，绝大多数用户并不愿意。

所以这里面隐含的一个核心问题是：在当前这个格局下，谁会先赢？就当下来看，两边其实都没有赢——因为都没有跑出真正的killer app。原因也很现实：当前无论是性能、产品成熟度，还是生态能量，都还不够用。

但这个格局在未来一两年内一定会发生变化，这一点我觉得是可以确定的。至少在垂直领域，变化已经开始显现。

如果放在一个完全架空的世界观里，我可能会判断CLI或coding形态真正占据主导地位，大概需要三年左右；但在现实世界里，我更倾向于认为，两年左右会出现一个killer app，被大规模接受；三年左右，整体形态会基本定型。

其实你也能看到一些大厂的野心，比如Gemini、Claude Code，本质上都在试图成为一种“操作系统级”的存在。问题从来不是“要不要interface”，而是interface该长什么样。

interface可以是纯语言的，但现在看来大家并不买账；归根结底，大家都是在权衡利弊——只要它真的足够爽，人们就会用；不够爽，就一定会抗拒。

这也是为什么语音交互明明技术已经很成熟，但很多人仍然不愿意在公共场合使用。所以有时候，不管是产品经理、科学家还是工程师，其实都很难对这种事情下一个绝对判断。真正的问题永远是：到底有多少人，真的会去用你的CLI？

答案可能很残酷——绝大多数人一辈子都不会点开那个黑框。

六、Office等专业软件 Grounding 会是GUI的突破点吗？实现后会怎么样？

Tianbao

那我先把问题说得非常具体一点。假设我们站在一个架空的世界观里，所有技术条件都已经成熟，那么其实只有两个清晰的选项。

第一个选项是GUI agent：GUI做得极其丝滑，几乎是“所见即所得”。
第二个选项是coding / CLI路线：同样比现在丝滑得多，模型更强，工具链更完整。

在这个前提下，其实很多所谓“GUI vs coding”的争论会变得没那么本质。因为你仔细拆一下就会发现，不管是PPT还是Word，本质上都和网页、Markdown很像：它们都是结构化文本+多媒体文件的组合。

如果模型真的足够强，它完全可以“凭空吐XML、吃XML”，再把中间的图片、布局、结构组合好。这在模型能力上是完全成立的，只是今天还没做到足够稳定而已。

从用户视角来看，问题就变成了一个任务执行方式的选择。比如一个非常现实的任务：你有一个包含100个PDF的文件夹，你已经手工整理好了1个，现在希望AI按照同样的规则把剩下99个全部整理完。

这时其实有两条现实路径：

第一条是coding / 神经符号（neural-symbolic）路线。 你通过CLI或脚本把PDF读进来，清洗、解析、调用模型、输出结构化结果，然后循环执行。今天来看，这条路径的效果明显更好：流程清晰、标准作业程序（SOP）明确、循环可控，更稳、更鲁棒。

第二条是CUA / GUI路线。 你更像是在下指令：打开第一个PDF，看两眼；关掉；打开第二个，再看两眼……大量原本由代码完成的步骤，被图像token和界面操作取代。这条路在今天明显更容易出错，稳定性也更差。

所以在当前技术条件下，第一种方案几乎一定更优。但如果我们假设未来某一天，这两种方式都变得“足够爽”、足够稳定，那问题就不再是“哪条技术路线更好”，而是用户想要哪一种体验。而且这个答案很可能因人而异。

进一步拆，其实还可以按前台/后台、同步/异步来区分：
有些任务是后台、异步的，用户只关心最终交付物。那你是放在虚拟机里用GUI做，还是在服务器上用coding跑，真的无所谓。
但有些任务是前台、同步的。用户希望“看着它做”，获得一种掌控感和安全感。这时候很多人反而更倾向于CUA / GUI。

所以我们实际上面对的是一个极其宏大的可能性空间：不同任务、不同用户、不同时间尺度，对应的最优形态可能完全不同。

而我个人的判断是：未来极有可能是一个高度混合的状态。不是哪条路线彻底胜出，而是不同技术在不同场景下共存，各自发挥优势。

X

像文件系统管理这种事情，本来就非常适合用代码来做。比如最简单的例子——给100个文件重命名，这件事用code半秒钟就解决了。所以至少在短期内，我是明确投票给“把coding和GUI融合在一起”的路线。

但在这个过程中，我自己还有一个越来越强的感受：agent的长期发展一定离不开记忆（memory），以及围绕memory的一整套能力。

你会发现，现在的模型在第一次做某个任务时，往往需要大量探索。但问题在于——试过一次之后，它就不应该再重新试一遍。第二次遇到类似任务时，它应该能基于第一次的经验，直接选择更高效的路径。

而现在的大多数agent，本质上是“没有记忆的”。它更像一个标准化流程的服务员。但我们真正想要的，其实是一个个人助理——你跟我待得越久，对我越了解，协作就越顺。

这一点在GUI agent上尤其明显。在ToB场景里，你希望它能把经验固化成一個工作流（workflow）：动作更稳定、路径更明确、出错概率显著降低。

我觉得这一块，其实是现在大家相对比较忽略的一个话题。从用户角度来看，很多时候问题并不复杂：哪个快用哪个，哪个不打扰我用哪个。

而效率本身，又是高度场景相关的。所以我觉得，未来一定会出现大量我们现在根本无法完全预判的场景。但我会认为，一个比较理想的形态是：让agent自己具备判断和决策能力——基于历史经验、任务类型、上下文，去决定“这次该用code，还是该用GUI”。

这也意味着，在大家逐步解决agent “可用性”之后，下一个阶段的核心挑战，会是从可用走向好用。而这一步并不简单。

在我看来，这里面仍然有大量算法层面的未定义问题，尤其是围绕memory、在线学习（online learning）、经验固化这些方向。我自己最近也一直在思考这些问题。

但我会很确定地说：这就是agent的下一个阶段，而且是一个非常重要的阶段。

七、大模型厂为什么不像 Coding 那样砸钱做 GUI？

X

在做这件事的时候，一定要用商业和生产力视角来看，而不是只用算法视角。一旦第一个人把这条路跑通，并且真的用它赚到钱了，后面的事情就会变得非常简单——大家会迅速跟进。

但现在的问题在于：产品市场契合度（PMF）还没有被验证出来。这当然也和模型本身还不够成熟有关。即便是今天的模型，哪怕用在coding场景下，你也很难说“已经特别好用了”。

所以我会认为，这是当前的根本问题。只要这个问题被解决，后面的推进速度会非常快。

第二个判断，其实就回到一个非常现实的标的上：收入在哪里？在美国、尤其是硅谷，其实有一个非常清晰的参照物——UiPath。UiPath是RPA的典型代表，它一年能做到大概10亿到20亿美元级别的收入。那问题就很直接了：GUI agent能不能做到类似的规模？

如果未来最强的一家GUI公司，能够在硅谷靠这条路线做到一年10亿美元的收入，那这件事就“成了”。这也是很多一线基金在脑子里会自然摆出来的对标模型。

而且通过GUI agent，你有机会释放出大量原本RPA很难覆盖的场景。传统RPA最大的问题就是：难写、难维护、脆弱。GUI agent如果真的跑通，可以把原本不经济、不现实的自动化场景全部打开。

所以问题最终只剩一个：你能不能把这10亿美元的收入真正装进自己口袋里？

UiPath被评为自主测试平台领导者象限图

Tianbao

放在当下这个时间点来看，我觉得GUI方向还没有真正出现killer app。即便像Manus这样的产品里已经能看到一些GUI的影子。但整体上的“胜利”仍然主要来自coding路线。比如它最终能交付PPT、文档之类的结果，并不是因为GUI在里面起到了关键性的调试或修饰作用，而更多还是靠代码路径跑通的。

但这并不意味着GUI是不必要的。事实上，很多事情哪怕是在PPT这种场景下，也确实存在一些无法完全靠代码解决的最后一英里问题（last mile）。理想状态当然是：模型足够强，直接吐图、吐XML；但现实是，总有一些细节、一些审美或交互层面的东西，仍然需要GUI介入。

现在的问题在于，这些last mile在当前阶段更多只是概念验证（proof of concept）。很多用户暂时并不关心，但一旦产品真正开始对齐用户的真实痛点，这些问题迟早会被重新捡起来。

我还想再补一个更偏“研究层面”的判断：GUI agent可能是目前最简单、也最容易被评估的AGI等价物（AGI equivalence）之一。

你如果在机器人学（Robotics）里试图宣称AGI，会非常困难。系统里充满了各种“杂质”。你很难拿出一条清晰的“主线模型演进史”。

但GUI agent / 桌面智能体是可以做到这一点的。它天然是多模态的，又可以逐步扩展到更复杂的场景，比如游戏智能体——需要时间敏感、视频流输入、动作流输出。这种场景非常干净，也非常可控。

正因为如此，历史上我们才会对一些“等价物”产生强烈共识。比如AlphaGo打败李世石、柯洁，之所以能引发如此大的社会反响，是因为围棋本身是一个被高度认可的等价物。

同样地，如果未来有agent能在复杂游戏中打败顶级职业选手，或者一个computer-use agent能真实地接管大量白领工作的80%以上，那它作为AGI等价物的说服力会非常强，而且是切实可行、可评估、杂质极少的。

我甚至会认为，所有真正怀有AGI野心的公司，最后都会在某种意义上走到这一点。 因为对研究科学家和工程师来说，这是一条极其有吸引力、也极其“可证明”的路线。

而GUI agent不一样——没有视觉，它就不存在。这点和CLI有本质区别。正是这种“不可替代性”，让它成为一个极其独特、也极其重要的方向。关于AGI和智能体的更多深度技术探讨，可以在云栈社区的人工智能板块找到相关资源。

八、GUI Reward Hacking 和 Refusal 问题怎么解决？

X

我觉得奖励攻击（reward hacking）本身是非常普遍的现象，几乎不可避免。这个问题说实话也没什么“银弹”，最终还是靠不断地调训练方法、调数据分布，慢慢去压。

但拒绝（refusal）是另一类问题。在我看来，refusal与其说是技术问题，不如说更多是一个产品问题。原因在于：GUI agent在“算法上可用”和“产品上ready”之间，其实差得非常远。

从模型和算法角度看，你的agent已经能干很多事情了，权限也很大；但一旦你真的把它往产品形态上推，就会立刻遇到大量现实约束——有些动作不好拦截，有些行为风险很高。

这时候你会发现，要把产品铺开，是有很多前提条件的，而这些事情恰恰都不是算法团队愿意、也不擅长去做的。但如果你不把这些问题解决掉，产品又根本上不了线。结果就会变得非常尴尬：你不放开权限，用户说你“什么都干不了”；你一放开权限，又会带来各种风险和合规问题。

但从agent本身的角度来看，算法层面的refusal其实并不严重。因为agent面对任务，本质上总是可以先试一试的。所以对agent来说，“先做再说”本来就是合理行为，refusal并不是它的自然状态。真正复杂的是产品层面的控制与审查。

这一点我觉得Claude Code在权限管理上的设计就做得非常好。相比之下，很多工具在权限这块显得比较草率。它并不是假装系统“不危险”，而是明确承认系统本身是有风险的，然后通过一整套完整的权限管控、确认机制，把风险暴露给用户，并让用户参与决策。

我觉得这件事非常重要，而且是一个典型的产品级核心问题。它不是算法能单独解决的，但如果不解决，GUI agent就永远停留在“技术演示”，而走不到真正可用、可规模化的阶段。

Tianbao

我也从技术角度补充一下这个问题。

首先，reward hacking是一定会存在的，这一点几乎没有争议。原因在于RL训练本身就是一个高度复杂的系统工程：它不仅涉及算法本身，还涉及环境的设计、整个RL基础设施的稳定性、以及数据来源。

而一旦进入数据和奖励设计层面，就天然存在被攻击的空间。所以这本质上是一个系统性工程问题，需要非常严谨的组织能力和工程纪律。即便如此，你也很难保证模型在任何情况下都不绕规则。

举一个很具体的例子。之前在OSWorld里有一个case：我们让agent去点一个叫ThunderBird的图标——一个蓝色小鸟抱着白色信封；但它却经常点到Firefox，因为Firefox是一只橘色狐狸抱着一个蓝色地球。在经过视觉语言模型（VLM）处理之后，这两者在模型眼里可能并没有那么大的差异。某些训练数据的偏移，在这种情况下就会被放大。

这类问题如果发生在高风险操作上，后果会非常严重。比如你让它把文件整理到一个目录里，它却把所有文件拖进垃圾桶并清空。所以这里一定需要兜底机制（guardrail）。而且兜底机制不是只存在于训练阶段，而是要贯穿训练、产品设计和线上运行的整个生命周期。

这也是为什么像Claude Code这种产品在权限控制上做得非常谨慎：IP控制、内容控制、目录控制，这些并不是“保守”，而是工程上必须的安全边界。从工程角度看，这些能力其实并不新。早在GUI agent之前，云服务和虚拟化环境里就已经有类似需求。

但GUI agent这里会多出一些新的、非常现实的兜底需求：

第一类是法律和责任兜底。 如果agent在用户前台“乱点”，你必须在产品上明确：哪些内容是agent自主行为，哪些不归你负责。

第二类是技术层面的兜底。 最理想的状态，是agent能识别用户的关键文件，并在必要时将这些文件同步到一个云端沙盒里执行操作——沙盒是安全的、隔离的、私有的，权限是被严格封锁的。

这里其实可以遵循一个非常工程化的原则：最小改动原则（minimal change）。如果用户只关心最终交付物，那agent就不应该大规模动本地环境；只同步必要的上下文，在安全沙盒中完成计算，然后交付结果。

当然，也不能走到另一个极端——纯云端。纯云端会引入大量新的摩擦成本。所以比较现实的折中方案是：在minimal change的前提下，把风险选择权交还给用户——用户可以选择是否接受更高权限、更高风险的执行路径；系统在机制上允许把任务路由到云端沙盒；默认路径是安全、保守的，但不是完全“封死”。

现实中，大多数用户并不会真的去做极端破坏行为。所以总结来看，现在的状态有点像是两头堵：一头是完全放开，风险不可控；另一头是过度保守，体验完全跑不起来。真正难、也真正有价值的工作，是在中间找到一条工程上可落地、产品上可接受、法律上可兜底的路径。

X

我的整体感觉是这样：安全性这块，其实现在非常缺产品定义，也非常缺产品化，而且确实很难。即便到2026年，agent在技术上可能已经成熟了一年，但产品层面是否足够成熟，我其实是持相对保守态度的。技术成熟和产品成熟之间，差距还是很大的。

如果一定要判断，我会说：2026年agent在产品形态上做到“非常成熟”，难度还是挺高的。但与此同时，我觉得有一条路径是很现实、也很有可能跑通的。

这条路径，其实是coding给我的一个很大启发：你先把开发者服务好就够了。 先让开发者玩起来，让他们爽。开发者本身就已经有足够多的应用场景了。而且当我们谈AI要落地到“各行各业”时，我一直觉得一个常见的误区是：妄想由模型公司自己把所有行业的落地都干完。这既不现实，也不符合社会分工和资源分配的规律。

更合理、至少在短期内更有效的方案是：把能力做成一个对开发者极其友好的平台，然后让开发者自己去把它交付到各个行业。在这个前提下，很多问题反而会变得简单一些。

比如安全性：面向开发者的产品，可以不需要那么“极端严格”。开发者本身就是相对专业的人群，他们有能力规避很多风险，也愿意为复杂性买单。你只需要把基础安全边界做好，剩下的交给他们。所以从这个角度看，Anthropic的策略是非常聪明的：它明确选择了开发者优先。当然，这也意味着它放弃了成为一个ToC超级应用的机会。从现实成功概率和资源配置来看，这样的取舍是理性的。

九、工程和产品团队应该做什么？

X

原则一：做与模型能力提升正交的事。 有人比喻做AI产品像在电梯里做引体向上——费力上升后，模型进步可能使工作白费。若工程和产品化方向与模型进展平行，处境会很被动。Claude Code做的大部分事情与模型能力方向正交。

原则二：产品的PMF非常明显。 技术出身的人初做产品容易高估市场接受度，但实践后拿到产品的第一瞬间就能判断有无用户。

原则三：用户习惯难以改变。 AGI本身是颠覆性的事，但不一定在一两年内发生，更可能是十年尺度。产品越贴合用户现有习惯和工作流，越容易成功。

Manus代表另一种思路，过去一年持续筛选用户，最终留下高净值、学习能力强的专业用户，愿意接受新工作模式。这种可以尝试改变工作习惯，但需谨慎。

产品定义不清楚时，先做技术。有些问题可能随技术突破迎刃而解。

Tianbao

工程团队精力应放在RL环境和基础设施（Infra）上。若有富余人力，投入环境的扩展（scaling）收益最大。

当前数据非常缺乏多样性。可能每个前沿团队都曾设想多种路径，包括收购类似TeamViewer的公司获取远程遥控轨迹数据，但发现在合规层面行不通。

做RL需要专门的环境。否则需在公开网络采集数据，涉及IP池、账号池等灰色操作。想自给自足就要复制整个互联网和软件生态系统，做模拟版Gmail、B站等，不仅要做界面还要做数据库。若全过程合规，成本会非常高。

这需要大量人力，可借助前后端工程师和自由职业者（freelancer）。需要建立合理的组织架构，当前数据公司的交付物多样性和质量仍有不足。

十、Real-time 操作的前景如何？

X

GUI确定后可以先取得一些价值再做实时（real-time）操作。虽有挑战，但应该有办法，主要看收益大小。

Tianbao

传统意义上定义的computer use或mobile use不是时间敏感的（time-sensitive）。日常工作流里很多任务，5秒钟点和1秒钟点差别不大。

实时性在秒杀、抢单、游戏等场景下较为重要。

最近有一些相关工作，如字节团队、Google DeepMind持续推进的项目。打游戏是非常好的AGI等价物，是time-sensitive的，有视频流输入和输出。但当前VLM无法支撑游戏频率，可能要到5Hz或10Hz才可以。现在不太可能，推理引擎再快也得好几秒，用户体验也不佳。

十一、Online Learning 和 Memory 什么时候能落地？

结合工业界和学界的经验，像在线学习（online learning）、测试时训练（test time training），或者广义上的自我改进（self-improving）这些目前比较有希望的方向，实际前景如何？工业界如果要落地大概需要多久？

X

Online learning和memory是一体两面。Memory是架构（Architecture），涉及架构和框架；online learning是优化手段。 抛开任何一个单独讲都不合理，这两者必须同时做。

场景非常重要。有些场景这个能力可能作用有限。

2026年是适合在Benchmark上做定义的好时机。现有memory benchmark实际更接近长上下文（long context）benchmark，缺乏实际意义。

Memory可以基于上下文，但一定要可学习（learnable），否则无法用online learning优化。可能至少需要一个上下文管理（context management）agent来做上下文管理，这是可训练的（trainable），可以用函数调用、用RL来优化。再进一步做权重内学习（in-weight learning），把上下文内化成参数。

预计两三年落地。今年可能先有好的定义工作出来，明年开始做优化，2028年有好的应用跑出来。

Online learning不一定与agent绑定，如Cursor的Tab RL就与agent无关。非agent场景可能2026年底至2027年初落地，agent场景预计2027年下半年——因为2026年需先解决agent可用性问题。

对Transformer架构的专门优化还有点早，可以先在前两步推进。

Tianbao

按这个尺度评估，至少需要三四年。

关于memory的存储形式，过去主要是像Manus这种上下文管理机制。未来可能会更多转向参数内的连续化机制，因为离散化机制效率较低，且受制于flops问题。

目前大家对模型架构的改造还是偏保守，主要在改线性注意力（linear attention）和门控注意力（gate attention）这些方向。

结语（金句摘录）

若一个Benchmark涉及过多要素，作为工业界指标时很难产生有效信号，在模型早期阶段这个信号缺乏意义。
建议选择3-5个未来最易被替代的职业，做能结合CUA、Coding、API和deep research解决的Benchmark。
让agent去适应现实环境，一定比要求环境为agent做大规模改造要容易得多。
我还是比较坚定地认为，做agent这件事必须闭环来做。你一定要拿到真实的用户反馈，否则你做出来的东西最终就是一个“没法上桌”的系统。
自动驾驶早期有高精地图和端到端两套方案，最终端到端胜出——车适应环境比环境适应车容易。Agent同理。
硬盘 + 计算单元 + 一个interface。问题从来不是“要不要interface”，而是interface该长什么样。
GUI agent可能是最“干净、可评估”的AGI等价物之一，具备长期研究吸引力。
Online learning和memory是一体两面。Memory是Architecture；online learning是optimization手段。抛开任何一个单独讲都不合理。
我会很确定地说：这就是agent的下一个阶段，而且是一个非常重要的阶段。
那它作为AGI等价物的说服力会非常强，而且是切实可行、可评估、杂质极少的。我甚至会认为，所有真正怀有AGI野心的公司，最后都会在某种意义上走到这一点。

上一篇：Kubernetes中RDMA高性能网络实战：部署配置与性能验证指南
下一篇：2026年大模型专家进阶路径：从Transformer到MoE与多模态前沿技术

GUI智能体, AGI, 计算机智能体, 基准测试, 强化学习

GUI Agent技术前沿：对话AGI的等价物、基准测试与未来挑战

一、模型与 Benchmark 的发展现状

Tianbao（模型侧观察）

X（Benchmark 侧观察）

二、Comprehensive vs 垂直 Benchmark 怎么选？

Tianbao

X

三、设备差异与合版挑战

X

Tianbao

X

四、Agent 的终局是什么？

X

Tianbao

五、CLI vs GUI，谁会胜出？

X

Tianbao

六、Office等专业软件 Grounding 会是GUI的突破点吗？实现后会怎么样？

Tianbao

X

七、大模型厂为什么不像 Coding 那样砸钱做 GUI？

X

Tianbao

八、GUI Reward Hacking 和 Refusal 问题怎么解决？

X

Tianbao

X

九、工程和产品团队应该做什么？

X

Tianbao

十、Real-time 操作的前景如何？

X

Tianbao

十一、Online Learning 和 Memory 什么时候能落地？

X

Tianbao

结语（金句摘录）

相关帖子