找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1074

积分

0

好友

138

主题
发表于 16 小时前 | 查看: 1| 回复: 0

大型语言模型在数字环境中做决策正变得越来越重要。但你是否发现,现有模型在做长期预测和理解环境动态时,总有些力不从心?

一个核心问题在于“幻觉”和静态知识的依赖,这让它们在执行复杂的多步骤计算机任务时,常常产生误导性的模拟结果。那么,有没有一种方法能够有效整合最新知识,解决预测偏差呢?

近期提出的检索增强型世界模型(R-WoM) 就针对这一问题给出了新的思路。它通过从外部教程等知识源中检索信息来增强模型的世界建模能力,显著提升了在复杂场景下的表现。

研究背景:从短期理解到长期规划

随着智能代理技术的快速发展,如何让机器更好地理解并模拟环境(即“世界模型”)变得至关重要。早期的符号化规划系统已逐步演变为能够学习连续环境动态的复杂神经架构。

虽然大型语言模型在短期状态理解上展现出强大能力,但它们在长时间预测和保持程序一致性方面仍存在明显短板。这种局限性在涉及操作系统、应用程序和网页交互的复杂多步骤任务中尤为突出,直接影响了智能代理决策的可靠性与最终成功率。

研究方法:引入检索与多步推理机制

为了系统评估大型语言模型的潜力,研究者设计了三个评估维度:状态预测、全过程规划对齐以及关键里程碑节点识别。分析发现,LLMs 擅长捕捉短期动态,但在需要通盘考虑的全程序规划上表现不足。

基于此,检索增强型世界模型(R-WoM) 被提出。它不仅整合外部教程知识,还采用了基于检索的推理机制,以提升模型对新场景的适应性和预测准确性。

R-WoM(检索增强世界模型)系统架构图

图:R-WoM 框架概述。通过查询生成、知识检索与重排,将外部知识注入世界模型,支撑多步的状态转移预测与奖励估计,从而选出最佳动作。

R-WoM 框架的核心在于,它为每个候选动作提供了一个多步的“想象”推演过程。即使在资源有限的情况下,这一过程也能保持稳定。同时,它采用基于相对奖励的估计方法,而非绝对评分,这有效降低了偏差,为选择最优行动提供了更清晰的信号。

研究结果:显著提升复杂任务成功率

研究团队在 OSWorld 和 WebArena 两个主流的计算机任务自动化基准上进行了实验。结果表明,R-WoM 带来了显著的性能提升。

模型 OSWorld WebArena
Qwen-2.5-VL-72B 38.05 ± 2.29 (+23.4%) 28.92 ± 0.43 (+18.1%)
Claude-3.7-Sonnet 39.13 ± 1.92 (+25.3%) 35.11 ± 1.10 (+7.2%)

表:R-WoM 与基准模型的性能对比,显示了明显的相对提升百分比。

具体来说,Qwen-2.5 模型在 OSWorld 上的成功率提升了 23.4%,而 Claude-3.7 模型在 WebArena 上也实现了 7.2% 的增长。这些数据证明,通过整合外部知识,R-WoM 确实增强了对复杂计算机使用场景的表示与处理能力。

进一步分析显示,随着推演(想象)步数的增加,R-WoM 在长期预测中仍能保持稳定表现,这体现了其对动态环境更强的适应性。尤其在需要长远规划的任务中,其优势更加明显,能有效减少预测错误和决策失误。

结论与未来展望

总而言之,这项研究揭示了 检索增强型世界模型(R-WoM) 在处理复杂计算机任务方面的巨大潜力。它为解决当前 AI代理 在长期规划和动态环境建模中的瓶颈提供了一个有前景的方向。

当然,挑战依然存在,例如在知识资源稀缺或过时的领域,如何保证外部知识的可用性。未来的研究可以探索在这些场景下自动合成教程的方法,并继续优化模型效率以降低计算成本。对这类前沿 人工智能 技术感兴趣的开发者,可以到 云栈社区相关板块 进行更深入的交流与探讨。

文献信息

  • 文献标题: R-WoM: Retrieval-Augmented World Modeling for Computer-Using Agents
  • 文献作者: Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang
  • 发表时间: 2025-10-13
  • 访问链接: https://arxiv.org/abs/2510.11892



上一篇:如何在个人电脑部署轻量级AI助手nanobot:GitHub开源OS Agent实战指南
下一篇:C++ HTTP服务器实战:16天从Reactor到45万QPS生产级实现
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-7 20:45 , Processed in 0.514205 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表