云栈社区»论坛 › 站务中心「 Forum Service 」 › 不用重新训练LLM？4层Runtime Harness让Agent性能平均提升88.5% ...

发回帖发新帖

5243 积分	0 好友	676 主题

发消息

不用重新训练LLM？4层Runtime Harness让Agent性能平均提升88.5%

发表于 2026-5-30 04:19:27 | 查看: 143| 回复: 0

只用 Qwen3-4B-Instruct 的训练轨迹演化 Harness，最终还能迁移到另外 17 个模型上。

LIFE-HARNESS性能概览图

最近，一个关键问题反复出现在我们的讨论中：

提升 LLM Agent 的能力，一定要重新训练模型吗？

现在很多 Agent 适配方法，本质上还是在做模型适配：更大的参数量、更强的指令微调、更复杂的强化学习、更精细的知识蒸馏。这些方法当然有效，但也意味着更高的训练成本、更强的模型绑定，以及每换一个模型就可能需要从头再来一遍。

但在很多垂直领域的 Agent 任务中，失败未必完全来自模型参数。

很多时候，问题发生在模型与环境的接口处。

比如，模型没有正确理解工具 schema；本来应该调用 tool，却把动作写成了自然语言；动作意图是对的，但格式无法被环境执行；环境已经返回错误反馈，但模型没有触发恢复；或者轨迹陷入重复和停滞，直到耗尽 step budget。

换句话说，Agent 不只是一个 LLM。

它是一个运行时系统：模型观察环境、调用工具、执行动作、接收反馈，并在多轮交互中持续决策。最终表现不仅由模型本身决定，也由这套 runtime harness 决定。

Agent与LLM的对比与两种适配路径

因此，我们提出了一个不同的方向：

Adapting the Interface, Not the Model.

不改模型，而是适配模型与环境之间的运行时接口。

论文标题页

论文标题：
Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic LLM Agents

论文链接：
https://arxiv.org/abs/2605.22166

代码链接：
https://github.com/Tianshi-Xu/Life-Harness

LIFE-HARNESS：从训练轨迹中演化运行时接口

我们提出 LIFE-HARNESS，一个面向确定性 LLM Agent 的 lifecycle-aware runtime harness。

它的目标很直接：

保持模型权重不变，保持评测环境不变，只从训练轨迹中挖掘可复用的失败模式，并将这些失败模式转化为运行时干预。

LIFE-HARNESS 包含 4 层：

1. Environment Contract Layer

在交互开始前，显式化工具规则、调用协议、答案格式、环境约束和常见陷阱，帮助模型更准确地理解“这个环境到底要求我怎么做”。

2. Procedural Skill Layer

从训练轨迹中提取可复用的过程技能，并在新任务中检索相关经验。比如在 WebShop、数据库查询、业务流程任务中，很多任务共享稳定的操作流程，这些经验不一定非要写进模型参数。

3. Action Realization Layer

在模型输出动作之后、环境执行动作之前，检查动作是否真的可执行。它可以处理一些“模型意图合理，但提交格式错误”的问题，例如 tool call 缺失、JSON 错误、参数缺失、函数名错误或 SQL 格式问题。

4. Trajectory Regulation Layer

监控长轨迹中的重复、停滞和无效恢复。当 Agent 反复搜索、反复点击、重复执行无效动作，或者快要耗尽预算时，这一层会触发恢复提示或纠偏指令。

LIFE-HARNESS四层架构流程图

这 4 层分别作用在 Agent 生命周期的不同阶段：交互前明确环境契约，任务开始时提供过程技能，执行前规范动作，执行后调控轨迹。

它们共同适配的是模型与环境之间的 runtime interface，而不是模型权重本身。

实验结果：平均相对提升 88.5%

我们在 3 个 benchmark suite 上评测了 LIFE-HARNESS：

τ-bench
τ²-bench
AgentBench

覆盖 7 个确定性 Agent 环境：Airline、Retail、Telecom、ALFWorld、WebShop、OS 和 DBBench。

模型方面，我们评测了 18 个不同 backbone，包含 instruction-tuned models、reasoning models 和 agent-specialized models。

结果显示：

LIFE-HARNESS 在 116 / 126 个 model-environment 设置中带来提升，平均相对提升 88.5%。

更重要的是，harness 的演化只使用了 Qwen3-4B-Instruct 的训练轨迹，但最终可以迁移到另外 17 个模型上。

这说明 LIFE-HARNESS 学到的并不是某个模型的特殊行为，而是环境侧可复用的稳定结构。

18模型×7环境的性能热力图

Harness 和模型训练是替代关系吗？

并不是。

模型训练、指令微调、强化学习和蒸馏仍然很重要。但它们主要是在改模型参数，而 LIFE-HARNESS 改的是模型与环境之间的运行时接口。

这两者是互补的。

实验中我们发现，即使是经过 tool-use 训练的 agent-specialized model，加入 LIFE-HARNESS 后仍然可以继续提升。也就是说，工具使用训练并不会完全消除接口层、动作层和轨迹层的失败。

域内与域外性能增益对比柱状图

为什么这件事重要？

对很多垂直领域 Agent 来说，重新训练模型并不总是最现实的选择。

训练成本高、迭代慢，而且强依赖特定模型。但很多 Agent 失败不是模型能力不足，而是模型与环境之间的接口没有被正确适配。

因此，Agent 适配不一定只能发生在模型内部。它也可以发生在观察、工具、动作、反馈和轨迹控制组成的运行时系统中。

总结

我们提出的 LIFE-HARNESS 试图回答一个问题：

能否不更新模型权重，只通过适配 runtime harness 来提升确定性 LLM Agent？

实验结果表明，在确定性、规则明确的垂域 Agent 任务中，这是可行的。

LIFE-HARNESS 在 7 个环境和 18 个模型上带来了广泛提升，并展示出良好的跨模型迁移能力。

与其每次都重新训练模型，不如先问一句：这个问题，真的需要改模型吗？还是只需要把模型与环境之间的接口适配好？

以上就是云栈社区为您带来的前沿论文解读。我们致力于挖掘和分享那些能切实提升AI应用效能的技术思路，而非简单地追逐模型参数的规模。如果您对如何构建更健壮的AI系统有自己的见解，欢迎在云栈社区与大家一同探讨。

上一篇：嫌内存太贵？半导体博士在花园棚屋手搓DRAM，成功读写20个存储单元
下一篇：联想百应AI主机发布：三款专为Agent设计，买就送5亿Tokens，彻底告别Token账单

Agent, LLM, Fine-tuning, 运行时系统, 确定性系统