随着2026年开年,以 Claude Skills 为代表的技能工程正在重构人机协作的底层逻辑。这一技术通过将可重复的领域知识封装为可动态加载的指令包,使通用大语言模型具备专业化执行能力。它与2024年的提示词工程、2025年的上下文工程一脉相承,标志着AI应用从对话交互向任务执行的关键跃迁。
当前,Skills已从开发者圈层渗透至普通职场,其官方Skills仓库已在GitHub上获得超过5.2万星标,技能商店中出现了安装量超4800人的爆款应用。
核心趋势:从对话到执行
Skills 技术通过将可重复的领域知识封装为可动态加载的指令包,使通用大语言模型具备了“即插即用”的专业化执行能力。
- 2024年 提示词工程:优化提问方式,引导模型输出。
- 2025年 上下文工程:扩充信息窗口,增强模型理解。
- 2026年 技能工程:封装执行逻辑,赋予模型“手脚”。
生态现状:开源社区的爆发
当前,Skills 已从开发者圈层渗透至普通职场。根据 GitHub 最新数据,其官方仓库已成为现象级项目。
📦 GitHub 仓库概览:agent-skills
| 指标 |
数据 |
说明 |
| 关注度 |
⭐ 52.4k Stars |
极高热度,超越多数主流框架 |
| 活跃度 |
🔀 8.1k Forks |
大量开发者基于此进行二次开发 |
| 主要语言 |
🐍 Python (83.9%) |
核心逻辑主要由 Python 驱动 |
| 辅助语言 |
JavaScript (9.4%) |
用于前端交互或特定脚本 |
📝 仓库核心说明 (README)
Note: This repository contains Anthropic's implementation of skills for Claude. For information about the Agent Skills standard, see agentskills.io.
什么是 Skills?
Skills 是由指令(instructions)、脚本(scripts)和资源(resources)组成的文件夹。Claude 可以动态地学习这些内容,以提高在特定任务上的表现。
核心价值:
它教会 Claude 如何以可重复的方式完成特定任务,应用场景包括:
- 🎨 品牌一致性:根据公司品牌指南创建文档。
- 📊 工作流自动化:使用组织特定的工作流分析数据。
- 🤖 个人提效:自动化处理日常个人任务。
Skills的起源与发展
Skills在2025年10月由Anthropic正式提出。在其一篇名为 Equipping agents for the real world with Agent Skills 的文章中,清晰点明了设计初衷:
“Claude is powerful, but real work requires procedural knowledge and organizational context. Introducing Agent Skills, a new way to build specialized agents using files and folders.”
翻译过来就是:“Claude很强大,但真正的工作需要流程知识和组织背景。为此,我们推出Agent Skills,一种使用文件和文件夹构建专业化代理的新方法。”
其核心目标是解决通用AI “只懂道理却不会干活” 的痛点。传统大模型虽能生成代码或文本,但缺乏对特定组织框架、业务流程和品牌规范的深层理解。Skills旨在将特定领域的操作指南、工具脚本和参考资料打包,让AI在需要时动态学习并执行。
2025年12月18日,Anthropic将Skills规范开源为开放标准,交由Linux基金会管理,这标志着 Skills 从单一产品功能演变为行业通用标准。
核心原理:给AI一本“工作手册”
通俗地讲,可以把Claude想象成一位新入职的超级聪明实习生(Agent)。他懂通用知识,但不知道公司的具体流程、技术规范和业务逻辑。Skills 就是为他准备的入职手册和知识库,让他能快速上手并专业地完成工作。
在技术上,Skills采用了一种精妙的三层渐进式披露架构,按需加载信息,极大地优化了上下文窗口(Token)的使用效率。
每次对话开始时,AI只会看到所有已安装技能的“目录”,即每个技能的名称(name,最多64字符)和一句话描述(description,最多1024字符)。这一层只占用约100个token,AI可以感知数百个技能的存在而几乎不增加负担。
第二层:详细步骤(SKILL.md)
当AI通过metadata判断当前任务需要某个skill时,它会动态加载该技能文件夹下的 SKILL.md 文件。这个文件是技能的核心,采用YAML前导格式定义元数据,主体是Markdown格式的详细操作指令。此时AI才真正学会如何具体操作。
第三层:参考资料(链接文件)
在真实工作中,主手册无法涵盖所有细节。因此,技能目录下可以包含其他参考文件,如各种表单填写规则(forms.md)、品牌视觉规范、代码示例库等。AI只会在执行特定子任务时才去按需读取这些文件。
这种三级结构的上下文窗口动态变化过程,可以PDF表单填写为例:
阶段1:初始状态(第一层)
用户输入:“用PDF技能填写这份合同”。AI看到“PDF技能”的描述,判断需要加载详细手册。
[系统提示] + [技能目录] + [用户消息]
↑
“用PDF技能填写这份合同”
阶段2:加载主手册(第二层)
AI加载 pdf/SKILL.md,了解基本操作流程。
[系统提示] + [技能目录] + [用户消息] + [SKILL.md完整内容]
↑
“明白了,先读取PDF,再识别表单字段,然后填写”
阶段3:按需加载子手册(第三层)
AI根据SKILL.md的指引,在需要填写具体表单时,加载 pdf/forms.md 查看特殊规则。
[系统提示] + [技能目录] + [用户消息] + [SKILL.md] + [forms.md]
↑
“这个表单看起来像W-9税务表,按照forms.md的特殊规则处理”
阶段4:执行任务
最终,AI结合所有信息执行任务并返回结果。整个过程不会一次性加载所有资料,Token消耗可降低70-90%。
Skills的架构与代码执行
从架构上看,一个完整的Skills体系包含代理配置和代理虚拟机两部分。
代理配置包含:
- 核心系统提示词(Core system prompt)
- 已装配的技能(Equipped Skills),例如 bigquery, docx, nda-review, pdf, pptx, xlsx 等
- 已装配的MCP服务器(Equipped MCP servers),可连接远程服务器
代理虚拟机为技能执行提供环境,包括:
- Bash, Python, Nodejs 等运行时环境
- 文件系统,技能以文件夹形式存放,例如:
skills/bigquery/ 包含 SKILL.md, datasources.md, rules.md
skills/docx/ 包含 SKILL.md, ooxml/, spec.md, editing.md
skills/pdf/ 包含 SKILL.md, forms.md, reference.md, extract_fields.py
一个标准的Skill目录结构如下:
my-skill/
├── SKILL.md # 说明书(主提示词)
├── scripts/ # 可执行脚本(Python / Bash 等)
│ └── helper.py
├── references/ # 需要读进上下文的文档
└── assets/ # 模板、二进制文件等,只按路径引用
代码执行:为AI配备确定性工具箱
Skills的强大之处在于,它不仅可以包含文档,还能封装可执行的脚本。这用“确定性代码”补足了“随机性模型”的短板,适用于排序、过滤、复杂文件操作、调用命令行工具等需要100%准确性的任务。
以PDF技能为例,其 SKILL.md 文件可能如下所示,其中包含了YAML前言、概述和指向其他文件的链接:
---
name: pdf
description: Comprehensive PDF toolkit for extracting text and tables, merging/splitting documents, and filling-out forms.
---
# Markdown
## Overview
This guide covers essential PDF processing operations using Python libraries and command-line tools. For advanced features, JavaScript libraries, and detailed examples, see .//reference.md
If you need to fill out a PDF form, read .//forms.md and follow its instructions.
## Quick Start
```python
from pypdf import PdfReader, PdfWriter
# Read a PDF
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")
# Extract text
text = ""
for page in reader.pages:
text += page.extract_text()
在 forms.md 中,可能会指导AI运行一个预写的Python脚本来提取表单字段:
If you need to fill out a PDF form, first check to see if the PDF has fillable form fields. Run this script from this file's directory:
`python scripts/check_fillable_form_fields.py`,
and depending on the result go to either the "Fillable fields" or "Non-fillable fields" and follow those instructions.
# Fillable fields
If the PDF has fillable form fields:
# Run this script from this file's directory:
python ./extract_fields.py <input.pdf> <output.json>
而 extract_fields.py 脚本的内容可能是:
from pyppdf import PdfReader
def write_field_info(pdf_path: str, output_path: str):
"""Extract form fields from PDF and store as JSON."""
reader = PdfReader(pdf_path)
fields = get_fields(reader)
with open(output_path, "w") as f:
json.dump(fields, f)
# ... omitted ...
if __name__ == "__main__":
if len(sys.argv) != 3:
print("Usage: python extract_fields.py <input_pdf> <output_json_path>")
sys.exit(1)
write_field_info(sys.argv[1], sys.argv[2])
关键在于,Claude可以运行这个脚本,而不需要把脚本本身或PDF内容加载进上下文。脚本在沙箱中执行,只将结构化的JSON结果返回给AI。这既节省了Token,又提高了处理大文件的效率和稳定性。
在技能中,调用模式通常是写在 SKILL.md 里的自然语言流程:
## 分析流程
1. 使用Bash工具执行:
`python {baseDir}/scripts/analyzer.py --path "$TARGET_DIR" --output report.json`
2. 用Read工具读取 `report.json`
3. 解析其中的字段,生成自然语言总结
{baseDir} 是一个变量,指向当前技能的安装路径,确保了技能的可移植性。
技术对比:Skills的独特定位
Skills vs. MCP (Model Context Protocol)
Skills与MCP构成互补而非替代关系。简单概括:Skills解决“怎么做”(方法论/工作流),MCP解决“连到哪儿”(连接外部系统)。
| 对比维度 |
Claude Skills |
Model Context Protocol |
| 设计目标 |
封装人类工作流和领域知识为可复用指令 |
为LLM调用外部工具提供统一接口 |
| 触发机制 |
自动检测,基于描述匹配 |
代理通过协议显式调用函数 |
| 配置复杂度 |
创建文件夹和Markdown文件,无运行时服务 |
需部署MCP服务器,编写JSON配置 |
| Token效率 |
渐进披露,初始开销极小 |
通常需预加载API文档,消耗数千tokens |
| 执行环境 |
完全在Claude沙箱内运行 |
外部服务器执行,返回结果给Claude |
| 适用场景 |
嵌入专业知识和内部流程 |
连接实时数据源和遗留系统 |
如果把整个AI体系想象成一栋楼,MCP是一楼机房,负责把“水电气网”(外部系统)接进来;而Skills是楼上的办公室,负责定义“大家具体怎么用这些资源干活”。
Skills vs. 传统Agent架构
传统多Agent架构像一个团队,有总控Agent和多个各司其职的子Agent(写代码、查资料、出报告等),它们之间需要复杂的消息传递和上下文协调。
Skills架构则更像是只有一个核心员工(如Claude),但可以根据场景动态加载不同的“专业模式”或“角色手册”。LangChain将其称为一种“轻量级、单Agent版的quasi-multi-agent架构”。
其工作流程可以简化为:用户请求 -> 主代理 -> 根据需要调用技能A、技能B或技能C -> 生成最终响应。
这种架构的优势非常明显:
| 维度 |
传统多Agent架构 |
Skills架构 |
| 复杂度 |
高。需设计Agent拆分、调度策略、消息协议。 |
低。只需编写Skill文件夹,调度由模型自动匹配。 |
| 上下文与Token |
高。多Agent反复传话,需压缩摘要,易失真。 |
低。三级渐进式加载,精准投放信息。 |
| 专业知识复用 |
难。知识散落在各Agent的长Prompt中,复制粘贴为主。 |
易。方法论固化为Skill文件夹,可通过版本库(如github.com)共享、评审。 |
| 团队协作 |
易割裂。不同团队“各养一个Agent”。 |
易整合。各团队维护不同Skill,集成于同一Agent。 |
| 调试观测 |
困难。需排查是哪个Agent、哪次消息传递出了问题。 |
清晰。只需关注:技能是否选对、SKILL.md设计是否合理、脚本是否有bug。 |
当然,Skills并非万能。在需要物理隔离权限、使用完全不同模型、或要求极端干净上下文隔离的场景下,独立的多Agent架构仍是更佳选择。业界共识是:默认先用Skills扩展现有Agent,仅在遇到上述硬性需求时,再考虑引入新的独立Agent。
总结与展望
Skills工程通过将领域知识模块化、流程化,为通用AI模型装上了可随时切换的“专业工具箱”。它降低了AI应用的专业化门槛,使非技术用户也能通过组合现有技能解决复杂问题,同时为开发者提供了可版本化、可共享的知识资产沉淀方式。
展望未来,随着Skill开源生态的繁荣和标准的普及,我们有望看到企业内部的“技能库”和跨平台的技能市场出现,进一步推动AI从对话助手向真正的生产力伙伴演进。对开发者而言,深入理解并实践Skills工程,将是构建下一代智能化应用的关键能力。你可以关注 云栈社区 上的 开源实战 和 技术文档 板块,以获取更多相关的深度分析和实践案例。
参考资料
[1] (文末附来源)2026开年新概念:万字讲清 Skills, 微信公众号:mp.weixin.qq.com/s/k1nQFXTBBCMY47v3x8gS6g
版权声明:本文由 云栈社区 整理发布,版权归原作者所有。