找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3872

积分

0

好友

514

主题
发表于 3 小时前 | 查看: 4| 回复: 0

在 AI Agent 飞速发展的今天,我们越来越多地看到它们被用于解决复杂的真实世界任务——从数据处理、文档操作,到系统运维和科学计算。

然而,当前大多数 Agent 仍然缺乏一种关键能力:长期积累并复用自己学到的“技能”。现有技能方案普遍把能力当作孤立静态脚本,无法跟随任务持续沉淀,既做不到跨任务复用,也缺少自动校验和迭代优化机制,智能体只能单次执行、无法自我成长。

针对上述问题,字节跳动的研究团队提出了 MUSE-Autoskill 框架,以全生命周期技能管理为核心,定义创建、记忆、管理、评估、优化五阶段统一范式,实现智能体自主进化。

实验结果表明,在包含 51 个真实世界任务的 SkillsBench 基准上,MUSE-Autoskill 在使用人类技能时,准确率领先其他 Agent,达到 68.40%。使用自我生成的技能时,在 35 个任务上准确率高达 87.94%,甚至超越了人类编写技能的上限

对于想深入了解 Agent 自进化与技能生命周期管理的开发者,云栈社区持续追踪该领域的最新论文与实践。

MUSE-Autoskill 论文标题页

方法

MUSE-Autoskill 的核心设计理念是:将技能视为拥有完整生命周期的资产,而非一次性生成产物。整个系统围绕五个环节构建:创建、评估、精炼、记忆、管理。

MUSE-Autoskill Agent 架构

图1 MUSE-Autoskill 整体架构图

上图展示了系统的整体结构。五个模块围绕技能库协同工作,Agent 运行于中间的循环中,所有技能均在此循环中被调用或生成。

一、技能创建

当现有技能无法满足当前任务需求时,Agent 调用内置的创建工具,提交一份功能规格说明——描述所需技能的目的、输入及预期输出。

系统依据该规格说明自动生成标准化的技能包,包含三个核心组件:

  • 接口定义文件:声明技能的调用方式与使用规范
  • 可执行脚本:实现具体功能的代码
  • 单元测试:用于验证技能正确性的测试用例

这种结构化封装确保了技能的可读性与可移植性。

二、技能评估与精炼

技能生成后,需通过评估方可入库。整个流程如图 2 所示。

MUSE-Autoskill 端到端流程

图2 MUSE-Autoskill 端到端流程图

评估系统执行技能自带的单元测试:

  • 全部通过:技能被正式注册至技能库,供后续复用
  • 存在失败:触发精炼模块,Agent 分析错误信息并自动修复代码,随后重新进入评估循环,直至通过或达到重试上限

这一先验证、后入库的设计,确保了技能库中每一项能力都经过可靠性检验。

三、技能级记忆

除了评估与精炼,MUSE-Autoskill 还有一个区别于现有工作的核心设计——技能级记忆。

每个技能附带一个独立的记忆文件,Agent 每次调用技能后,将本次执行的经验、注意事项及失败模式追加写入该文件。

后续任务再次调用同一技能时,Agent 会优先读取这份跨任务积累的记忆,从而规避已知问题、提升调用效率。

结合短期记忆(当前任务的推理上下文)与长期记忆(跨会话的通用经验),三者构成了完整的多层次记忆体系。

四、技能管理

随着技能库规模增长,高效检索成为关键。MUSE-Autoskill 采用两阶段检索策略:

  • 第一阶段:任务启动时,系统仅将各技能的“名称”与“一句话描述”注入 Agent 提示——该目录体积很小,技能数量增长仅带来线性增加的低开销
  • 第二阶段:Agent 根据目录筛选出候选技能后,再通过读取工具加载完整接口定义文件并执行

这种渐进式披露机制,使技能库规模扩大时不会导致上下文窗口溢出。

五、自适应上下文压缩

在长任务场景下,上下文窗口压力是另一个挑战,MUSE-Autoskill 为此设计了自适应上下文压缩机制,实现了如图 3 所示的两级压缩机制。

自适应上下文压缩

图3 自适应上下文压缩示意图

对话历史被组织为链式结构,固定保留前 5 轮与后 5 轮,仅中间部分进入压缩流程:

  • 一级压缩:将单个体量过大的节点替换为紧凑摘要
  • 二级压缩:若整体仍超阈值,将连续一段节点合并为一个合成摘要节点,并重新接入活动链

无论采用哪级压缩,原始节点均通过不可变指针完整保留于全量历史中,确保信息可回溯——压缩仅影响活动上下文,不造成信息永久丢失。

以上五个模块相互衔接,构成了技能从创建到复用、从验证到进化的完整闭环。

实验结果与分析

一、实验设置

实验基于 SkillsBench 51 项真实世界任务,覆盖四大领域:科学工程、数据分析、文档处理、运维规划;统一采用 GPT-5.5 作为基座模型,对比 MUSE-Autoskill、Codex、Hermes 三大智能体。

二、实验核心结果与分析

(1)性能基准对比

各智能体准确率对比表

各领域准确率对比表

各领域精度柱状图

图4 各智能体在 SkillsBench 多领域任务上的精度表现

所有智能体引入人工技能后准确率均提升 13~15.21 个百分点;MUSE-Autoskill 无技能基线 53.19%、有人工技能达 68.40%,整体及 4 个领域中 3 个均领跑对比模型,仅工程科学领域略低于 Codex,证明该框架更擅长解析与落地技能逻辑。

(2)自主技能生成能力

不同技能配置准确率

表3 MUSE-Autoskill 不同技能配置下准确率

MUSE-Autoskill 在 51 项任务中成功为 35 项生成有效技能,35 项任务准确率达 87.94%,超越人工技能上限;整体 51 项平均准确率 60.35%,未生成技能的 16 项多集中在专业运维、数值仿真领域,瓶颈为任务基线求解能力而非技能生成质量。

(3)跨智能体迁移实验

技能跨智能体迁移结果

表4 技能跨智能体迁移实验结果

将 MUSE-Autoskill 生成的技能直接注入 Hermes 智能体,Hermes 准确率从 47.89% 提升至 58.40%,弥补 79% 与人工技能的差距,且与 MUSE-Autoskill 同技能下准确率仅差 1.95 个百分点,验证生成技能是通用可迁移知识资产,不绑定单一智能体内部逻辑。

(4)效率与成本分析

技能生成与复用成本

表5 技能生成与复用资源开销对比

准确率、时延与 Token 消耗

图5 不同方案下模型准确率、时延与 Token 消耗对比

时延、Token 与性能权衡

图6 时延、Token 开销与性能权衡关系

各模型时延与 Token 分布

图7 各模型时延与 Token 消耗分布

生成成本与回本周期:一次性消耗约 383K token、164 秒。复用生成技能相比人工技能,MUSE-Autoskill token 降 20%、时延降 37%;Hermes token 降 48%、时延降 30%。3 次复用即可回本。

帕累托最优:使用自研生成技能时,两者同时实现更高准确率、更低时延、更少 token,优于无技能和人工技能配置。

开销分布:Hermes 资源最精简;MUSE-Autoskill 因推理回合更深,token 偏高,但自适应压缩有效控制溢出;技能引入显著降低高时延长尾问题。

(5)技能结构与质量剖析

技能内容结构对比

图8 人工技能与模型生成技能内容结构对比

MUSE-Autoskill 生成的技能文档长度是人工技能的 2.2 倍,流程、故障模式、输入输出规范描述更细致;且原生自带单元测试模块,而人工技能几乎无测试用例,在可验证性、鲁棒性上更具优势。

总结

MUSE-Autoskill 最大的突破,是把 AI 智能体从静态执行者变成终身学习者。不再依赖人类持续手写技能,智能体可以自己造、自己测、自己改、自己存、互相共享,形成闭环进化。

这也预示着下一代 Agent 的核心竞争方向:不再比拼大模型基座能力,而是比拼技能积累、记忆沉淀、自进化与生态复用能力。在 云栈社区,我们正见证着这股技术浪潮从研究走向工程落地。

END




上一篇:PCB线圈平面变压器设计指南:如何避免涡流及电源平面噪声
下一篇:戴尔AI服务器收入暴增757%,上调全年指引至600亿美元
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-30 07:09 , Processed in 0.773657 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表