找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4409

积分

0

好友

609

主题
发表于 3 小时前 | 查看: 7| 回复: 0

凌晨两点,我盯着对话日志里第37次失败的技能调用,陷入了沉思。

用户明明问的是“帮我看看这份合同的竞业条款有没有问题”,我精心编写的“合同审核助手”技能却毫无反应。反而是另一个“文档总结”技能跳了出来,把合同内容概括了一遍——这活儿大模型自己就能干,要你何用?

这大概是过去半年里,几乎所有深度使用Claude Agent开发者的共同噩梦:技能像薛定谔的猫,你永远不知道它会在哪个对话里“装睡”,又在哪个不该出现的地方“诈尸”

直到昨天,Anthropic官方放出了skill-creator的重磅更新。我花了一晚上把官方博客和代码啃完后,后背有点发凉——这套组合拳下来,我们以后做AI技能的方式,可能要彻底变了。以前凭感觉“炼丹”,现在终于可以像写单元测试一样,用数据把技能效果“测”出来

今天这篇文章,我就带你手搓一遍这套新工作流。不聊虚的,直接上实战:如何把一个经常“装死”的PDF信息提取技能,通过自动化评测+多Agent并行测试+智能触发优化,把准确率从62%干到94%,顺便把调试时间从1天压缩到1小时。

一、为什么你的AI技能总在「装睡」?核心痛点拆解

先别急着打开IDE。在动手优化之前,咱们得先搞清楚,之前做技能为什么那么痛苦。官方这次更新,本质上是用软件工程里最成熟的“测试-基准-迭代”闭环,来根治AI开发里的三个“老大难”:

  1. 触发玄学:你在SKILL.md里写得清清楚楚“用于处理PDF发票”,但用户问“帮我看看这张发票的总金额”,技能死活不出来。换个说法“把PDF里‘合计’栏的数字给我”,它又出来了。你完全摸不清它的触发边界。
  2. 效果黑洞:技能上线后表现如何?全靠用户反馈和手动抽检。改了一句提示词,到底是变好了还是变差了?没有量化数据,全凭“我觉得”。
  3. 迭代地狱:想优化一下?好,你得先手动构造十来个测试问题,挨个跑一遍,肉眼判断结果,记下来。然后改一句描述,再重复跑一遍……如此循环,大半天就过去了,而且测试过的历史问题还可能被污染。

这次skill-creator的升级,就是给每个技能配了一套专属的“自动化质检流水线”

二、实战:手搓一个高精度「PDF发票信息提取器」

为了让你看明白这套流程有多顶,咱们假设一个真实场景:你需要一个技能,从不同格式的PDF发票(扫描件、拍照件、电子发票)里,准确提取“发票号码”、“开票日期”、“合计金额”三个字段。

这个场景很典型,既有明确的规则(字段提取),又有模糊的挑战(排版多样、图像质量差)。咱们就用新功能来驯服它。

核心升级1:搭建评测集——给技能找个「考官」

以前优化靠感觉,现在优化靠数据。第一步,咱们得给技能建一套标准答案

打开skill-creator,找到新建评测集的入口。这里不需要写代码,你只需要做三件事:

  • 准备测试用例:上传10-20份不同样式的发票PDF(最好覆盖各种疑难杂症,比如模糊的、有印章遮挡的、表格不规范的)。
  • 定义评判标准:告诉Claude,什么样的结果算“好”。例如:“合计金额字段必须提取纯数字,保留两位小数,且不能包含‘人民币’、‘¥’等符号。”
  • 标注标准答案:对于关键测试用例,手动标注正确的提取结果,作为评判的“金标准”。

可视化策略:这里最适合画一张 「自动化评测流水线流程图」 。图里应该包含:测试用例集 -> 技能执行引擎 -> 结果比对器 -> 量化报告(准确率/召回率/Token消耗)。核心逻辑是:每次技能修改后,都自动跑一遍所有用例,用数据告诉你这次改动是“优化”还是“退化”。

核心升级2:多Agent并行测试——又快又准,告别「记忆污染」

以前最头疼的是测试会“串味儿”。跑完第一个发票测试,第二个发票测试可能会“记住”第一个的格式,导致结果不准。

现在skill-creator引入了多Agent并行测试。你一点“运行评测”,工具会瞬间拉起N个独立的子Agent(每个测试用例一个),所有用例并行执行,独立上下文,互不干扰

原来跑20个用例可能要半小时(还得人工盯着),现在5分钟内出报告,而且结果绝对干净。官方还加了一个很绝的盲测A/B对比Agent——如果你想对比新版和旧版技能的效果,这个Agent会以“盲人”身份去执行测试,不知道哪个是新版,哪个是旧版,完全客观地输出对比结果,彻底避免你的主观偏好影响判断。

核心升级3:自动优化触发——把「装睡」的技能打醒

好了,评测集建好了,技能也写好了(假设第一版提示词很简单:“从PDF中提取发票号码、日期和金额”)。你跑了一次评测,报告出来了:

  • 整体通过率:62%
  • 主要失败原因:当用户提问包含“合计金额”、“总共多少钱”、“税后总价”等不同说法时,技能触发不稳定;对于模糊扫描件,字段提取错位。

现在,轮到最实用的功能登场了——自动触发优化。你只需要在skill-creator里勾选“优化技能触发”,然后告诉工具你的目标(比如“提升召回率,同时减少误触发”),它就会自动进入一个智能迭代循环

  1. 生成对抗样本:工具基于你提供的测试用例,自动生成一系列变体:口语化表述(“发票上总共多少钱?”)、带错别字(“发piao号马是多少?”)、省略专业术语(“帮我看看这个PDF里的日期”),甚至生成一些极易混淆的、不该触发该技能的近义问题(比如“总结一下这个发票的内容”),用来测试技能会不会“乱动”。
  2. 自动改写SKILL.md:它会根据测试失败案例,尝试优化技能描述文件里的descriptioninstruction字段,最多迭代5轮,在准确率(该触发时才触发)召回率(该触发时必触发) 之间寻找最优平衡点。
  3. 输出优化报告:迭代完成后,你会得到一份清晰报告:触发准确率从62%提升到了多少?官方实测普遍能到90%以上。同时,它会给出优化后的SKILL.md文件内容,你几乎可以直接拿来用。
# 这是优化后的技能配置片段(示例)
name: "PDF_Invoice_Extractor"
description: |
# Highlight: 优化后的描述,包含了触发关键词和边界条件
当用户提供PDF文件(特别是发票、收据、账单),并要求“提取金额”、“获取发票号”、“看日期”、“识别总额”、“读取合计”时,此技能被触发。
如果用户只是要求“总结”、“翻译”PDF内容,则不应触发此技能。
instruction: |
你是一个专业的PDF发票信息提取助手...

三、技能分类新视角:别把时间花在「无用功」上

优化完技能,你会发现这次官方还带来了一个认知升级:他们把技能分成了两类,帮你判断投入产出比。想知道更多 AI Agent 领域的实战技巧与心得,可以持续关注 云栈社区 的讨论。

  1. 能力提升类:帮Claude做到它本来不擅长的事,比如这里的复杂PDF结构化提取。这类技能,评测系统最大的价值是帮你判断“何时可以退休”。如果下个月Claude基础模型自己就支持了超高精度PDF提取,你的评测集会立刻告诉你:通过率95%以上,这个技能可以下线了,别再做无用优化。
  2. 流程编码类:把你们公司的固定流程写进去,比如“按XX标准审核合同”、“生成周报必须包含三个核心指标”。这类技能,评测系统是“合规检察官”。每次修改后自动跑一遍测试,确保它永远严格遵守你的业务规范,一点都不会跑偏。

四、秋日实战总结

  • 告别玄学,拥抱量化:从现在起,任何上线的AI技能,都必须配套一个评测集。没有评测数据支撑的优化,都是耍流氓。
  • 自动化迭代是唯一出路:手动构造测试用例、手动调触发词的“手工作坊”时代结束了。学会用多Agent并行测试自动触发优化,把时间花在定义业务规则上,而不是猜模型心思上。
  • 区分技能类型,决定优化策略:问自己:这个技能是弥补模型能力的“补丁”,还是固化业务流程的“模具”?前者关注模型升级后的“退休时机”,后者关注流程执行的“不变形”。
  • 小步快跑,持续集成:把评测系统接入你的技能开发流程。每次修改,跑一次测试,看一次报告。让每一次改动,都带来确定的优化。

看完这篇实战,你是否也想动手优化自己的技能?关键在于建立这套数据驱动的优化闭环。如果你想参考更多开源实战中的自动化测试与调优思路,可以参考社区里的相关案例。




上一篇:腾讯光子AI基建五年复盘:Light AI如何重塑游戏美术生产流程?
下一篇:汇川PLC运动控制:图形块指令编程与快捷操作技巧详解
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-17 07:09 , Processed in 0.547953 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表