找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3724

积分

0

好友

484

主题
发表于 昨天 23:22 | 查看: 6| 回复: 0

如何看待当前大火的 Agent Skill(智能体技能)?与其在碎片信息里打转,不如系统性地“啃”下两篇高质量综述。一篇回答关于技能生命周期的四个基本问题,另一篇则深入讲解技能的四种自动演化范式六类核心评测基准。两者互相补充,是深入该领域不错的索引。

一、Agent Skill的4个基本问题:表示、获取、检索及演化策略

我们之前曾讨论过一个围绕技能生命周期(表示、获取、检索、演化)展开的研究总结。它将智能体技能定义为可复用的过程性工件,用以弥补工具调用与可靠执行间的过程鸿沟。该工作系统梳理了四类技能获取方式、多维度检索与选择策略,以及全链路演化机制。

相关成果来自论文:A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applicationshttps://arxiv.org/pdf/2605.07358 )。研究论文、开源数据与项目均已整理并汇总于 https://github.com/JayLZhou/Awesome-Agent-Skills 。这里做个简单的回顾:

Agent技能的分类结构图,树状层级展示技能表征、获取、检索与选择、技能演化等大类及相关技术和模型

具体解读可参考这里: https://mp.weixin.qq.com/s/49qzXvT5HdWdEyZGXNnVIg ,此处不再赘述。

二、Agent Skill的4种自优化方式和6类评测基准

另一篇值得精读的综述:Agent Skill Evaluation and Evolution: Frameworks and Benchmarks ( https://arxiv.org/pdf/2606.11435 ),其核心就讲两件事:技能怎么自动优化迭代,又该怎么科学评测好坏。 对应的开源项目地址是: https://github.com/Cassie07/AgentSkill_Survey

技能创建、演进与评估流程的三栏式信息图,清晰展示了从技能来源到任务完成的完整链路

首先,它对"技能"做了一个形式化界定:技能被定义为结构化包 S=(C,π,T,R)。其中,C(Condition,条件) 根据智能体观测与任务目标准确判断技能是否适用;π(Policy,执行策略) 编码了具体操作流程;T(Termination,终止准则) 判定技能何时执行结束;R(Reusable Interface,可重用接口) 则支持技能间的组合调用。技能本身分为人工编写与自动化创建两类。

基于此,我们来重点拆解技能的四种自动演化方式六类评测基准

1. 技能自动优化的4种方式

这四种范式分别作用于不同层级:执行反馈面向单次运行的细粒度步骤级信号;轨迹蒸馏面向多次运行的序列级模式;压缩与增强作用于整个技能库的结构;强化学习则从任务级奖励出发进行优化。

四种技能演化范式的多维度对比表格,清晰列出了各范式的信号源、优势、关键权衡与评测盲区

1) 执行反馈 (Execution Feedback)
原理是基于单次执行中的细粒度信号(如运行报错、错误输出、用户偏好等)来修正技能,这很像人工查找并修正 bug 的过程。代表方法有 SkillForge、CoEvoSkills、Skills-Coach、AutoSkill、SkillClaw 等。

执行反馈方法下的代表性研究列表:SkillForge、CoEvoSkills、Skills-Coach、AutoSkill、SkillClaw、EmbodiSkill

其本质是:技能执行时报错或结果不对,系统就自动去查问题、改 bug。优点是修问题准、高保真到真实失败案例;缺点在于是一种被动补漏模式,没有报错信号就无法启动优化。因此,识别失败与生成重写这两个环节的有效区分,是完善反馈环的关键。

2) 轨迹蒸馏 (Trajectory Distillation)
它挖掘多次任务运行的完整轨迹序列,从成功和失败案例中提炼出通用的、可复用的执行模式,进而形成新技能或优化旧技能。代表方法有 SPARK、Trace2Skill、Memento-Skills,以及拓展至多模态视觉轨迹的 XSkill。

轨迹蒸馏方法下的代表性研究列表:SPARK、Trace2Skill、Memento-Skills、XSkill

简而言之,这就是把多次执行的完整流程“扒”出来,总结归纳出通用靠谱的步骤,沉淀成一个新技能。好处是总结经验和复用模式的能力强;但原始轨迹本身带有噪声和冗余,容易导致上下文过度膨胀。在现实操作中,可以通过比较多次运行间的模式来进行蒸馏以发现可复用知识。更重要的是,需预先准备高质量轨迹,并显式地以质量和多样性为标准进行筛选,而非随意使用所有可用数据。

3) 压缩与增强 (Compression & Augmentation)
这种方式面向整个技能库进行全局优化,旨在解决技能冗余、内容冲突、覆盖不足以及 Token 消耗过高等问题。"压缩"负责精简冗余、降低成本;"增强"负责补全覆盖、合并同类项或拆解复杂技能。代表方法有 SkillNet、SkillX、SkillReducer、SkillFoundry。

压缩与增强方法下的代表性研究列表:SkillNet、SkillX、SkillReducer、SkillFoundry

当技能库变得臃肿混乱时,这种方法通过合并重复、精简描述来"瘦身提效",同时查漏补缺。最大的风险在于,不当的压缩可能误删核心执行逻辑、安全约束或领域细节。因此,一个稳妥的流程是:压缩前,将核心可执行步骤标注为受保护的参考;压缩后,使用保留的测试用例集对演化后的技能进行回归测试,以确认性能无损。

4) 强化学习 (Reinforcement Learning)
依托任务级的全局奖励(如技能复用率、任务成功率),以迭代方式更新技能策略,着重解决技能跨任务复用的问题。多数方法基于 GRPO 框架进行改进,代表有 D2Skill、SkillRL、SkillOS,以及旨在解决组件碎片化问题的统一演化框架 Skill1。

强化学习方法下的代表性研究列表:D2Skill、SkillRL、SkillOS、Skill1

此方法将任务成败作为奖励信号,反复训练使技能更好用、适配更多场景。优点是跨任务复用性很强;缺点是计算开销高昂,且易出现"奖励投机"问题。主流的二元(成功/失败)指标,根本无法区分性能的提升究竟是源于技能本身的改进,还是模型基础能力的增强。为了更准确地评估,可以在定期训练间隔中,分别测试"使用技能"与"不使用技能"下的任务表现,并将这二者的性能差距作为真实的技能贡献信号。


2. 技能评测的6类方式及代表

如何科学地判定一个技能的好坏?这需要构建多维度的评测体系,大致可归为以下六类:

1) 技能效用基准 (Skill Utility)
评估技能对任务完成率的实际提升效果,侧重量化其业务价值。代表评测有:覆盖 11 大专业领域的 SkillsBench,以及专注于长时序工具调用和技能复用的 SkillCraft

技能效用基准代表:SkillsBench和SkillCraft的规模与任务组成说明

2) 技能生成基准 (Skill Generation)
用于量化自动化生成技能的质量与复用能力,核心在于区分高质量与低质量技能,防止错误累积。代表评测为 SkillLearnBench

技能生成基准代表:SkillLearnBench的任务数量、类别与三级评估体系说明

3) 技能检索与路由基准 (Retrieval & Routing)
评估在拥有大规模技能库的场景下,系统筛选、调度和协同编排多个技能的能力。代表评测有 SkillRouter、SRA-Bench、AgentSkillOS。这些评测普遍揭示了一个结论:仅靠技能的名称或简短描述进行检索,准确率会大幅下降。

技能检索与路由基准代表:SRA-Bench、SkillRouter和AgentSkillOS的数据规模与任务描述

4) 技能安全审计基准 (Safety Auditing)
用于检测恶意技能、运行时漏洞,防范数据泄露、指令劫持等风险。它覆盖隐藏覆盖、伪装转移、远程引导等多种攻击模式。代表评测有 SkillTester、SkillGuardBench、SKILL-INJECT

技能安全审计基准代表:SkillTester、SkillGuard-Bench、SKILL-INJECT的评估对象与安全维度说明

5) 软件工程基准 (Software Engineering)
面向代码开发、运维等场景评估技能效果。代表评测为 SWE-SkillsBench,它依托公开代码仓库构建,可复现性较强,但目前在私有工程、遗留代码等复杂场景上仍有欠缺。

软件工程基准代表:SWE-Skills-Bench的任务数量、子域与评测方式说明

6) 真实环境基准 (Real-world Environment)
将技能部署到开放、动态的真实世界场景中进行测试,更贴近实际应用。代表评测有 WildClawBenchSkillForge 基准。不过,封闭式的测试环境也给跨方法对比和结果复现带来了一定挑战。

真实环境基准代表:WildClaw-Bench和SkillForge benchmark的任务类别、规模与测试环境说明


参考文献

  1. https://mp.weixin.qq.com/s/49qzXvT5HdWdEyZGXNnVIg
  2. https://arxiv.org/pdf/2606.11435



上一篇:DeepSeek三模型霸榜OpenRouter,万亿MoE推理的国产算力底座如何炼成?
下一篇:大模型上下文窗口详解:从Token到RAG,通俗版含Python示例
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-16 01:52 , Processed in 0.779916 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表