找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4861

积分

0

好友

630

主题
发表于 1 小时前 | 查看: 4| 回复: 0

只用 Qwen3-4B-Instruct 的训练轨迹演化 Harness,最终还能迁移到另外 17 个模型上。

LIFE-HARNESS性能概览图

最近,一个关键问题反复出现在我们的讨论中:

提升 LLM Agent 的能力,一定要重新训练模型吗?

现在很多 Agent 适配方法,本质上还是在做模型适配:更大的参数量、更强的指令微调、更复杂的强化学习、更精细的知识蒸馏。这些方法当然有效,但也意味着更高的训练成本、更强的模型绑定,以及每换一个模型就可能需要从头再来一遍。

但在很多垂直领域的 Agent 任务中,失败未必完全来自模型参数。

很多时候,问题发生在模型与环境的接口处

比如,模型没有正确理解工具 schema;本来应该调用 tool,却把动作写成了自然语言;动作意图是对的,但格式无法被环境执行;环境已经返回错误反馈,但模型没有触发恢复;或者轨迹陷入重复和停滞,直到耗尽 step budget。

换句话说,Agent 不只是一个 LLM

它是一个运行时系统:模型观察环境、调用工具、执行动作、接收反馈,并在多轮交互中持续决策。最终表现不仅由模型本身决定,也由这套 runtime harness 决定。

Agent与LLM的对比与两种适配路径

因此,我们提出了一个不同的方向:

Adapting the Interface, Not the Model.

不改模型,而是适配模型与环境之间的运行时接口。

论文标题页

论文标题:
Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents

论文链接:
https://arxiv.org/abs/2605.22166

代码链接:
https://github.com/Tianshi-Xu/Life-Harness

LIFE-HARNESS:从训练轨迹中演化运行时接口

我们提出 LIFE-HARNESS,一个面向确定性 LLM Agent 的 lifecycle-aware runtime harness。

它的目标很直接:

保持模型权重不变,保持评测环境不变,只从训练轨迹中挖掘可复用的失败模式,并将这些失败模式转化为运行时干预。

LIFE-HARNESS 包含 4 层:

1. Environment Contract Layer

在交互开始前,显式化工具规则、调用协议、答案格式、环境约束和常见陷阱,帮助模型更准确地理解“这个环境到底要求我怎么做”。

2. Procedural Skill Layer

从训练轨迹中提取可复用的过程技能,并在新任务中检索相关经验。比如在 WebShop、数据库查询、业务流程任务中,很多任务共享稳定的操作流程,这些经验不一定非要写进模型参数。

3. Action Realization Layer

在模型输出动作之后、环境执行动作之前,检查动作是否真的可执行。它可以处理一些“模型意图合理,但提交格式错误”的问题,例如 tool call 缺失、JSON 错误、参数缺失、函数名错误或 SQL 格式问题。

4. Trajectory Regulation Layer

监控长轨迹中的重复、停滞和无效恢复。当 Agent 反复搜索、反复点击、重复执行无效动作,或者快要耗尽预算时,这一层会触发恢复提示或纠偏指令。

LIFE-HARNESS四层架构流程图

这 4 层分别作用在 Agent 生命周期的不同阶段:交互前明确环境契约,任务开始时提供过程技能,执行前规范动作,执行后调控轨迹。

它们共同适配的是模型与环境之间的 runtime interface,而不是模型权重本身。

实验结果:平均相对提升 88.5%

我们在 3 个 benchmark suite 上评测了 LIFE-HARNESS:

  • τ-bench
  • τ²-bench
  • AgentBench

覆盖 7 个确定性 Agent 环境:Airline、Retail、Telecom、ALFWorld、WebShop、OS 和 DBBench。

模型方面,我们评测了 18 个不同 backbone,包含 instruction-tuned models、reasoning models 和 agent-specialized models。

结果显示:

LIFE-HARNESS 在 116 / 126 个 model-environment 设置中带来提升,平均相对提升 88.5%。

更重要的是,harness 的演化只使用了 Qwen3-4B-Instruct 的训练轨迹,但最终可以迁移到另外 17 个模型上。

这说明 LIFE-HARNESS 学到的并不是某个模型的特殊行为,而是环境侧可复用的稳定结构。

18模型×7环境的性能热力图

Harness 和模型训练是替代关系吗?

并不是。

模型训练、指令微调、强化学习和蒸馏仍然很重要。但它们主要是在改模型参数,而 LIFE-HARNESS 改的是模型与环境之间的运行时接口。

这两者是互补的。

实验中我们发现,即使是经过 tool-use 训练的 agent-specialized model,加入 LIFE-HARNESS 后仍然可以继续提升。也就是说,工具使用训练并不会完全消除接口层、动作层和轨迹层的失败。

域内与域外性能增益对比柱状图

为什么这件事重要?

对很多垂直领域 Agent 来说,重新训练模型并不总是最现实的选择。

训练成本高、迭代慢,而且强依赖特定模型。但很多 Agent 失败不是模型能力不足,而是模型与环境之间的接口没有被正确适配。

因此,Agent 适配不一定只能发生在模型内部。它也可以发生在观察、工具、动作、反馈和轨迹控制组成的运行时系统中。

总结

我们提出的 LIFE-HARNESS 试图回答一个问题:

能否不更新模型权重,只通过适配 runtime harness 来提升确定性 LLM Agent?

实验结果表明,在确定性、规则明确的垂域 Agent 任务中,这是可行的。

LIFE-HARNESS 在 7 个环境和 18 个模型上带来了广泛提升,并展示出良好的跨模型迁移能力。

与其每次都重新训练模型,不如先问一句:这个问题,真的需要改模型吗?还是只需要把模型与环境之间的接口适配好?


以上就是云栈社区为您带来的前沿论文解读。我们致力于挖掘和分享那些能切实提升AI应用效能的技术思路,而非简单地追逐模型参数的规模。如果您对如何构建更健壮的AI系统有自己的见解,欢迎在云栈社区与大家一同探讨。




上一篇:嫌内存太贵?半导体博士在花园棚屋手搓DRAM,成功读写20个存储单元
下一篇:联想百应AI主机发布:三款专为Agent设计,买就送5亿Tokens,彻底告别Token账单
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-30 06:04 , Processed in 0.784406 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表