找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3274

积分

1

好友

440

主题
发表于 昨天 22:38 | 查看: 3| 回复: 0

随着2026年开年,以 Claude Skills 为代表的技能工程正在重构人机协作的底层逻辑。这一技术通过将可重复的领域知识封装为可动态加载的指令包,使通用大语言模型具备专业化执行能力。它与2024年的提示词工程、2025年的上下文工程一脉相承,标志着AI应用从对话交互任务执行的关键跃迁。

当前,Skills已从开发者圈层渗透至普通职场,其官方Skills仓库已在GitHub上获得超过5.2万星标,技能商店中出现了安装量超4800人的爆款应用。

核心趋势:从对话到执行

Skills 技术通过将可重复的领域知识封装为可动态加载的指令包,使通用大语言模型具备了“即插即用”的专业化执行能力。

  • 2024年 提示词工程:优化提问方式,引导模型输出。
  • 2025年 上下文工程:扩充信息窗口,增强模型理解。
  • 2026年 技能工程:封装执行逻辑,赋予模型“手脚”。

生态现状:开源社区的爆发

当前,Skills 已从开发者圈层渗透至普通职场。根据 GitHub 最新数据,其官方仓库已成为现象级项目。

📦 GitHub 仓库概览:agent-skills

指标 数据 说明
关注度 52.4k Stars 极高热度,超越多数主流框架
活跃度 🔀 8.1k Forks 大量开发者基于此进行二次开发
主要语言 🐍 Python (83.9%) 核心逻辑主要由 Python 驱动
辅助语言 JavaScript (9.4%) 用于前端交互或特定脚本

📝 仓库核心说明 (README)

Note: This repository contains Anthropic's implementation of skills for Claude. For information about the Agent Skills standard, see agentskills.io.

什么是 Skills?
Skills 是由指令(instructions)、脚本(scripts)和资源(resources)组成的文件夹。Claude 可以动态地学习这些内容,以提高在特定任务上的表现。

核心价值:
它教会 Claude 如何以可重复的方式完成特定任务,应用场景包括:

  • 🎨 品牌一致性:根据公司品牌指南创建文档。
  • 📊 工作流自动化:使用组织特定的工作流分析数据。
  • 🤖 个人提效:自动化处理日常个人任务。

Skills的起源与发展

Skills在2025年10月由Anthropic正式提出。在其一篇名为 Equipping agents for the real world with Agent Skills 的文章中,清晰点明了设计初衷:

“Claude is powerful, but real work requires procedural knowledge and organizational context. Introducing Agent Skills, a new way to build specialized agents using files and folders.”

翻译过来就是:“Claude很强大,但真正的工作需要流程知识和组织背景。为此,我们推出Agent Skills,一种使用文件和文件夹构建专业化代理的新方法。”

其核心目标是解决通用AI “只懂道理却不会干活” 的痛点。传统大模型虽能生成代码或文本,但缺乏对特定组织框架、业务流程和品牌规范的深层理解。Skills旨在将特定领域的操作指南、工具脚本和参考资料打包,让AI在需要时动态学习并执行。

2025年12月18日,Anthropic将Skills规范开源为开放标准,交由Linux基金会管理,这标志着 Skills 从单一产品功能演变为行业通用标准。

核心原理:给AI一本“工作手册”

通俗地讲,可以把Claude想象成一位新入职的超级聪明实习生(Agent)。他懂通用知识,但不知道公司的具体流程、技术规范和业务逻辑。Skills 就是为他准备的入职手册和知识库,让他能快速上手并专业地完成工作。

在技术上,Skills采用了一种精妙的三层渐进式披露架构,按需加载信息,极大地优化了上下文窗口(Token)的使用效率。

第一层:目录索引(Metadata)

每次对话开始时,AI只会看到所有已安装技能的“目录”,即每个技能的名称(name,最多64字符)和一句话描述(description,最多1024字符)。这一层只占用约100个token,AI可以感知数百个技能的存在而几乎不增加负担。

第二层:详细步骤(SKILL.md)

当AI通过metadata判断当前任务需要某个skill时,它会动态加载该技能文件夹下的 SKILL.md 文件。这个文件是技能的核心,采用YAML前导格式定义元数据,主体是Markdown格式的详细操作指令。此时AI才真正学会如何具体操作。

第三层:参考资料(链接文件)

在真实工作中,主手册无法涵盖所有细节。因此,技能目录下可以包含其他参考文件,如各种表单填写规则(forms.md)、品牌视觉规范、代码示例库等。AI只会在执行特定子任务时才去按需读取这些文件。

这种三级结构的上下文窗口动态变化过程,可以PDF表单填写为例:

阶段1:初始状态(第一层)
用户输入:“用PDF技能填写这份合同”。AI看到“PDF技能”的描述,判断需要加载详细手册。

[系统提示] + [技能目录] + [用户消息]
↑
“用PDF技能填写这份合同”

阶段2:加载主手册(第二层)
AI加载 pdf/SKILL.md,了解基本操作流程。

[系统提示] + [技能目录] + [用户消息] + [SKILL.md完整内容]
↑
“明白了,先读取PDF,再识别表单字段,然后填写”

阶段3:按需加载子手册(第三层)
AI根据SKILL.md的指引,在需要填写具体表单时,加载 pdf/forms.md 查看特殊规则。

[系统提示] + [技能目录] + [用户消息] + [SKILL.md] + [forms.md]
↑
“这个表单看起来像W-9税务表,按照forms.md的特殊规则处理”

阶段4:执行任务
最终,AI结合所有信息执行任务并返回结果。整个过程不会一次性加载所有资料,Token消耗可降低70-90%。

Skills的架构与代码执行

从架构上看,一个完整的Skills体系包含代理配置代理虚拟机两部分。

代理配置包含:

  • 核心系统提示词(Core system prompt)
  • 已装配的技能(Equipped Skills),例如 bigquery, docx, nda-review, pdf, pptx, xlsx 等
  • 已装配的MCP服务器(Equipped MCP servers),可连接远程服务器

代理虚拟机为技能执行提供环境,包括:

  • Bash, Python, Nodejs 等运行时环境
  • 文件系统,技能以文件夹形式存放,例如:
    • skills/bigquery/ 包含 SKILL.md, datasources.md, rules.md
    • skills/docx/ 包含 SKILL.md, ooxml/, spec.md, editing.md
    • skills/pdf/ 包含 SKILL.md, forms.md, reference.md, extract_fields.py

一个标准的Skill目录结构如下:

my-skill/
├── SKILL.md        # 说明书(主提示词)
├── scripts/        # 可执行脚本(Python / Bash 等)
│   └── helper.py
├── references/     # 需要读进上下文的文档
└── assets/         # 模板、二进制文件等,只按路径引用

代码执行:为AI配备确定性工具箱

Skills的强大之处在于,它不仅可以包含文档,还能封装可执行的脚本。这用“确定性代码”补足了“随机性模型”的短板,适用于排序、过滤、复杂文件操作、调用命令行工具等需要100%准确性的任务。

以PDF技能为例,其 SKILL.md 文件可能如下所示,其中包含了YAML前言、概述和指向其他文件的链接:

---
name: pdf
description: Comprehensive PDF toolkit for extracting text and tables, merging/splitting documents, and filling-out forms.
---
# Markdown
## Overview
This guide covers essential PDF processing operations using Python libraries and command-line tools. For advanced features, JavaScript libraries, and detailed examples, see .//reference.md
If you need to fill out a PDF form, read .//forms.md and follow its instructions.

## Quick Start
```python
from pypdf import PdfReader, PdfWriter

# Read a PDF
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

# Extract text
text = ""
for page in reader.pages:
    text += page.extract_text()

forms.md 中,可能会指导AI运行一个预写的Python脚本来提取表单字段:

If you need to fill out a PDF form, first check to see if the PDF has fillable form fields. Run this script from this file's directory:
`python scripts/check_fillable_form_fields.py`,
and depending on the result go to either the "Fillable fields" or "Non-fillable fields" and follow those instructions.

# Fillable fields
If the PDF has fillable form fields:
# Run this script from this file's directory:
python ./extract_fields.py <input.pdf> <output.json>

extract_fields.py 脚本的内容可能是:

from pyppdf import PdfReader
def write_field_info(pdf_path: str, output_path: str):
    """Extract form fields from PDF and store as JSON."""
    reader = PdfReader(pdf_path)
    fields = get_fields(reader)
    with open(output_path, "w") as f:
        json.dump(fields, f)
# ... omitted ...
if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: python extract_fields.py <input_pdf> <output_json_path>")
        sys.exit(1)
    write_field_info(sys.argv[1], sys.argv[2])

关键在于,Claude可以运行这个脚本,而不需要把脚本本身或PDF内容加载进上下文。脚本在沙箱中执行,只将结构化的JSON结果返回给AI。这既节省了Token,又提高了处理大文件的效率和稳定性。

在技能中,调用模式通常是写在 SKILL.md 里的自然语言流程:

## 分析流程
1. 使用Bash工具执行:
   `python {baseDir}/scripts/analyzer.py --path "$TARGET_DIR" --output report.json`
2. 用Read工具读取 `report.json`
3. 解析其中的字段,生成自然语言总结

{baseDir} 是一个变量,指向当前技能的安装路径,确保了技能的可移植性。

技术对比:Skills的独特定位

Skills vs. MCP (Model Context Protocol)

Skills与MCP构成互补而非替代关系。简单概括:Skills解决“怎么做”(方法论/工作流),MCP解决“连到哪儿”(连接外部系统)

对比维度 Claude Skills Model Context Protocol
设计目标 封装人类工作流和领域知识为可复用指令 为LLM调用外部工具提供统一接口
触发机制 自动检测,基于描述匹配 代理通过协议显式调用函数
配置复杂度 创建文件夹和Markdown文件,无运行时服务 需部署MCP服务器,编写JSON配置
Token效率 渐进披露,初始开销极小 通常需预加载API文档,消耗数千tokens
执行环境 完全在Claude沙箱内运行 外部服务器执行,返回结果给Claude
适用场景 嵌入专业知识和内部流程 连接实时数据源和遗留系统

如果把整个AI体系想象成一栋楼,MCP是一楼机房,负责把“水电气网”(外部系统)接进来;而Skills是楼上的办公室,负责定义“大家具体怎么用这些资源干活”。

Skills vs. 传统Agent架构

传统多Agent架构像一个团队,有总控Agent和多个各司其职的子Agent(写代码、查资料、出报告等),它们之间需要复杂的消息传递和上下文协调。

Skills架构则更像是只有一个核心员工(如Claude),但可以根据场景动态加载不同的“专业模式”或“角色手册”。LangChain将其称为一种“轻量级、单Agent版的quasi-multi-agent架构”

其工作流程可以简化为:用户请求 -> 主代理 -> 根据需要调用技能A、技能B或技能C -> 生成最终响应。

这种架构的优势非常明显:

维度 传统多Agent架构 Skills架构
复杂度 高。需设计Agent拆分、调度策略、消息协议。 低。只需编写Skill文件夹,调度由模型自动匹配。
上下文与Token 高。多Agent反复传话,需压缩摘要,易失真。 低。三级渐进式加载,精准投放信息。
专业知识复用 难。知识散落在各Agent的长Prompt中,复制粘贴为主。 易。方法论固化为Skill文件夹,可通过版本库(如github.com)共享、评审。
团队协作 易割裂。不同团队“各养一个Agent”。 易整合。各团队维护不同Skill,集成于同一Agent。
调试观测 困难。需排查是哪个Agent、哪次消息传递出了问题。 清晰。只需关注:技能是否选对、SKILL.md设计是否合理、脚本是否有bug。

当然,Skills并非万能。在需要物理隔离权限、使用完全不同模型、或要求极端干净上下文隔离的场景下,独立的多Agent架构仍是更佳选择。业界共识是:默认先用Skills扩展现有Agent,仅在遇到上述硬性需求时,再考虑引入新的独立Agent。

总结与展望

Skills工程通过将领域知识模块化、流程化,为通用AI模型装上了可随时切换的“专业工具箱”。它降低了AI应用的专业化门槛,使非技术用户也能通过组合现有技能解决复杂问题,同时为开发者提供了可版本化、可共享的知识资产沉淀方式。

展望未来,随着Skill开源生态的繁荣和标准的普及,我们有望看到企业内部的“技能库”和跨平台的技能市场出现,进一步推动AI从对话助手向真正的生产力伙伴演进。对开发者而言,深入理解并实践Skills工程,将是构建下一代智能化应用的关键能力。你可以关注 云栈社区 上的 开源实战技术文档 板块,以获取更多相关的深度分析和实践案例。

参考资料

[1] (文末附来源)2026开年新概念:万字讲清 Skills, 微信公众号:mp.weixin.qq.com/s/k1nQFXTBBCMY47v3x8gS6g

版权声明:本文由 云栈社区 整理发布,版权归原作者所有。




上一篇:解析MP4文件交错问题:如何避免Chrome播放引发的CDN带宽激增
下一篇:掌握Wireshark网络分析:从基础抓包到TCP三次握手实战解析
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-10 01:52 , Processed in 0.403884 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表