当下 AI Agent 的落地,所有人都卡在了同一个核心瓶颈上:技能(Skill)的规模化生产。
我们都知道,想让 Agent 从“能聊天”变成“真干活”,核心靠结构化、可复用的 Skill。它就像给 Agent 的标准化操作手册,写清楚了任务流程、避坑指南、执行标准。但现实很骨感:
- 人工写 Skill,费时费力,一个专业领域的高质量 Skill 需要专家反复打磨,规模化落地根本不现实。
- 靠大模型自动生成 Skill,要么碎片化严重,越更越乱;要么只在特定场景生效,换个模型、换个任务就彻底失效,甚至会反向拉低性能。
而阿里通义团队最新发布的 Trace2Skill 框架,直接给这个行业痛点提供了新思路:让 AI Agent 从自己的执行轨迹里,自主提炼出通用、可迁移、跨模型的高质量 Skill。它无需微调模型参数,无需额外检索模块,35B 开源模型就能跑通,甚至能让小模型生成的 Skill,给大模型带来最高 57.65% 的性能暴涨。
今天我们就来拆解这篇顶会级成果的核心逻辑与落地价值。
一、先搞懂:为什么 Skill 是 Agent 落地的死穴?
在正式拆解 Trace2Skill 之前,我们先明确两个核心问题,看懂行业的真痛点。
1. 到底什么是 Agent Skill?
Skill 不是一段临时的提示词,而是结构化、可复用、标准化的 AI 执行手册。它的核心包含任务目标、执行步骤、输出规范、避坑规则和异常处理方案,相当于给 Agent 封装了一个“开箱即用的函数”。
比如,处理 Excel 表格的 Skill 会写清楚“用 openpyxl 而非 pandas 写入公式,避免公式失效”、“写入后必须执行 recalc.py 重计算,防止单元格为空”这类可落地的规则。Agent 拿到就能直接用,能大幅提升任务成功率。
2. 现有 Skill 方案的两大死穴
(1)人工创作:规模化的天花板
Anthropic、通义等大厂都在推人工专家撰写的 Skill,但它的问题非常明显:
- 成本极高:一个专业领域的 Skill,需要领域专家和 AI 专家联合打磨,周期长、产能低。
- 兼容性极差:论文里有个扎心的实验——Anthropic 官方写的 Excel Skill,给 122B 大模型用能带来 20% 的性能提升,但给 35B 小模型用,反而会让性能下降 9.3%,完全不具备跨模型通用性。
(2)自动生成:泛化性的噩梦
现在主流的自动 Skill 生成方案,要么是串行更新(来一条轨迹改一次 Skill),要么是检索式记忆库(把经验存起来,用时检索),但都绕不开核心问题:
- 串行更新:容易出现“顺序漂移”,后面的修改会覆盖前面的经验,甚至过度拟合单条轨迹的细节,越更越差。
- 检索记忆库:极度依赖向量检索的准确率,任务表述稍有变化就找不到对应经验,而且必须绑定额外的检索模块,无法兼容所有 Agent 框架,跨场景迁移能力几乎为零。
- 根因分析不足:单轮 LLM 分析失败轨迹,只能看到表面报错,找不到真正的失败根因,生成的规则根本解决不了问题。
而 Trace2Skill 的核心突破,就是试图解决这两大难题。它模仿人类专家写 Skill 的逻辑:先广泛积累全量执行经验,再通过归纳推理提炼通用规则,最终形成一本全面、无冲突、可迁移的操作手册,而不是走一步改一步。
二、Trace2Skill 核心架构:3步让 Agent 自己学会写技能
Trace2Skill 的设计理念很巧妙:它没有用更复杂的模型或更庞大的参数,而是用“并行子 Agent 集群 + 层级归纳合并”的思路,还原了人类专家的技能创作过程。整个流程分为 3 个核心阶段,全程无需人工干预,也无需微调模型参数。

阶段1:轨迹生成——先让 Agent 干活,攒下全量经验
这一步是基础,核心是给 Agent 生成足够多的“实战经验”:
- 用固定参数的 Agent,基于初始 Skill(可以是人工写的,也可以是大模型随便生成的草稿),在目标任务集上批量执行,生成完整的执行轨迹。
- 把轨迹分成两类:成功轨迹(任务完成)和失败轨迹(任务出错),给后续分析提供素材。
- 全程完全并行,例如生成 200 条 50 轮以上的轨迹,用 122B 模型跑只需要不到 2 个 GPU 小时,效率很高。
阶段2:并行多 Agent 补丁提议——每条经验都有专人深度复盘
这是 Trace2Skill 的第一个核心创新:用并行子 Agent 集群,独立分析每一条轨迹,互不干扰,生成针对性的 Skill 修改补丁。
- 给每一条轨迹分配一个专属的分析子 Agent,成功轨迹配「成功分析师」,失败轨迹配「失败分析师」。
- 成功分析师:从成功轨迹里,提炼出能复用的有效操作模式,生成补丁。
- 失败分析师:用多轮 ReAct 智能体循环,不仅看执行日志,还能查看输入输出文件、对比标准答案,一步步定位失败的根因,验证修复方案后,再生成补丁,彻底避免“假根因”和“伪修复”。
- 所有子 Agent 完全并行运行,互不影响,避免了串行更新里的“过早收敛”问题,完整保留了所有轨迹里的有效经验。
阶段3:无冲突层级合并——把零散经验,归纳成通用技能手册
这是 Trace2Skill 最核心的突破,也是它能生成高泛化性 Skill 的关键:通过层级合并与归纳推理,把上百个零散的补丁,整合成一份统一、无冲突、高通用的最终 Skill。
- 层级合并:把所有补丁分组,每一组先合并成一个综合补丁,再往上一层层合并,最终形成一个最终补丁。全程用程序化的方式检测冲突、去重,避免规则矛盾。
- 归纳推理:合并过程中,会优先保留在多条独立补丁里反复出现的规则。因为在不同轨迹里都生效的规则,才是真正通用的任务规律。而单条轨迹里出现的特殊情况,会被放到辅助参考文件里,不会让主 Skill 变得臃肿。
- 格式校验:最终生成的 Skill,会严格遵循标准化格式。主文档放通用标准操作流程(SOP),辅助文件夹放边缘场景的解决方案,和人工写的专业 Skill 结构完全一致,开箱即用。
三、实验结果:不仅效果好,还能跨模型、跨场景通用
论文里的实验结果,精准地验证了其解决行业痛点的能力。我们来看几个关键亮点:
1. 跨模型迁移能力突出:小模型写的 Skill,让大模型性能大幅提升
这是一个非常振奋人心的结果:用通义 35B 开源模型生成的 Skill,直接给通义 122B 大模型用,在 WikiTableQuestions 跨场景任务上,带来了显著的性能提升。更重要的是,它似乎缓解了人工 Skill 的兼容性问题:无论是小模型生成的 Skill 给大模型用,还是反过来,在实验场景下都观察到了性能的正向提升,避免了“大模型能用,小模型用了反而变差”的情况。
2. 三大核心场景,表现全面
论文在表格处理、数学推理、视觉问答(VQA)三大高难度场景做了验证:
- 表格处理:在 SpreadsheetBench 基准上,优化后的人工 Skill 带来了性能提升;从零生成的 Skill,性能可接近人工专家水平。
- 数学推理:在 AIME 2026 奥数竞赛题上,生成的 Skill 让 35B 模型的得分有显著提升。
- 文档 VQA:在 DocVQA 基准上,122B 模型生成的 Skill 提升了模型指标,跨模型给 35B 用,依然能带来准确率提升。
3. 效率优势明显:并行处理速度快
对比主流的串行更新方案,Trace2Skill 的并行分析 + 层级合并架构在速度上有优势。同时,并行合并也避免了串行更新可能出现的顺序漂移问题,即“越更新越差”的现象。
4. 超越检索式方案,无需额外模块
对比检索式经验库,Trace2Skill 生成的 Skill 是一个独立文档,不需要额外的向量数据库或检索模块,可以直接加载到任何 Agent 框架里使用,兼容性和落地门槛都更有优势。
四、对 Agent 落地的核心启发
Trace2Skill 的价值,不仅在于一篇论文,更在于它为 Agent 规模化落地提供了一条可探索的路径。其核心启发有三点:
1. Agent 的核心资产,是可复用的 Skill 沉淀
未来 Agent 的竞争,可能不仅仅是比拼模型参数大小,更是看谁能沉淀出更多高质量、高泛化性的领域 Skill。Trace2Skill 让 Skill 的规模化、自动化生产成为可能,降低了从“专家手工打磨”转向“AI 辅助生成”的门槛。
2. “从经验中学习”是迈向通用智能的关键一步
绝大多数现有 Agent 仍然是“给什么规则,干什么活”。而 Trace2Skill 实现了一种“自主学习”的雏形:Agent 能从自己的成功和失败中,提炼通用规则,并沉淀成可复用的技能。这与人类从实践中总结方法论的过程类似,是 Agent 从“工具”向“智能体”演进的重要方向。
3. 低门槛、开箱即用,助力企业落地
Trace2Skill 全程无需微调模型参数,对算力要求相对友好,生成的 Skill 可以直接集成到现有 Agent 系统。对于企业而言,这可能意味着可以基于自身业务场景,通过让 Agent 执行一批任务来自动生成专属领域 Skill,从而以较低成本尝试 Agent 的规模化落地。
总结
Trace2Skill 的出现,为解决 Agent “技能规模化”的难题提供了一种新颖的思路。它让技能的生产模式,从高度依赖专家的“作坊模式”,向“AI 自主生成与优化”的工业化模式迈进了一步。
未来,如果这项技术能成熟落地,任何行业或企业或许都能基于自己的业务场景,更高效地生成专属的技能库,从而让 AI Agent 真正融入业务流程,创造实际价值。
对于我们 AI 从业者来说,值得关注的不仅是模型参数的增长,更是这些能让 AI 技术切实落地、解决实际问题的突破性框架与思想。如果你对 AI Agent、大模型应用等前沿技术话题感兴趣,欢迎来 云栈社区 与更多开发者一起交流探讨。