云栈社区»论坛 › 开发者广场「Dev Plaza」 › Skills工程精讲：Claude Skills如何赋予AI代理专业化执行能力 ...

5819 积分	1 好友	757 主题

发消息

Skills工程精讲：Claude Skills如何赋予AI代理专业化执行能力

发表于 2026-2-9 22:38:58 | 查看: 256| 回复: 0

随着2026年开年，以 Claude Skills 为代表的技能工程正在重构人机协作的底层逻辑。这一技术通过将可重复的领域知识封装为可动态加载的指令包，使通用大语言模型具备专业化执行能力。它与2024年的提示词工程、2025年的上下文工程一脉相承，标志着AI应用从对话交互向任务执行的关键跃迁。

当前，Skills已从开发者圈层渗透至普通职场，其官方Skills仓库已在GitHub上获得超过5.2万星标，技能商店中出现了安装量超4800人的爆款应用。

核心趋势：从对话到执行

Skills 技术通过将可重复的领域知识封装为可动态加载的指令包，使通用大语言模型具备了“即插即用”的专业化执行能力。

2024年提示词工程：优化提问方式，引导模型输出。
2025年上下文工程：扩充信息窗口，增强模型理解。
2026年技能工程：封装执行逻辑，赋予模型“手脚”。

生态现状：开源社区的爆发

当前，Skills 已从开发者圈层渗透至普通职场。根据 GitHub 最新数据，其官方仓库已成为现象级项目。

📦 GitHub 仓库概览：`agent-skills`

指标	数据	说明
关注度	⭐ 52.4k Stars	极高热度，超越多数主流框架
活跃度	🔀 8.1k Forks	大量开发者基于此进行二次开发
主要语言	🐍 Python (83.9%)	核心逻辑主要由 Python 驱动
辅助语言	JavaScript (9.4%)	用于前端交互或特定脚本

📝 仓库核心说明 (README)

Note: This repository contains Anthropic's implementation of skills for Claude. For information about the Agent Skills standard, see agentskills.io.

什么是 Skills？
Skills 是由指令（instructions）、脚本（scripts）和资源（resources）组成的文件夹。Claude 可以动态地学习这些内容，以提高在特定任务上的表现。

核心价值：
它教会 Claude 如何以可重复的方式完成特定任务，应用场景包括：

🎨 品牌一致性：根据公司品牌指南创建文档。
📊 工作流自动化：使用组织特定的工作流分析数据。
🤖 个人提效：自动化处理日常个人任务。

Skills的起源与发展

Skills在2025年10月由Anthropic正式提出。在其一篇名为 Equipping agents for the real world with Agent Skills 的文章中，清晰点明了设计初衷：

“Claude is powerful, but real work requires procedural knowledge and organizational context. Introducing Agent Skills, a new way to build specialized agents using files and folders.”

翻译过来就是：“Claude很强大，但真正的工作需要流程知识和组织背景。为此，我们推出Agent Skills，一种使用文件和文件夹构建专业化代理的新方法。”

其核心目标是解决通用AI “只懂道理却不会干活” 的痛点。传统大模型虽能生成代码或文本，但缺乏对特定组织框架、业务流程和品牌规范的深层理解。Skills旨在将特定领域的操作指南、工具脚本和参考资料打包，让AI在需要时动态学习并执行。

2025年12月18日，Anthropic将Skills规范开源为开放标准，交由Linux基金会管理，这标志着 Skills 从单一产品功能演变为行业通用标准。

核心原理：给AI一本“工作手册”

通俗地讲，可以把Claude想象成一位新入职的超级聪明实习生（Agent）。他懂通用知识，但不知道公司的具体流程、技术规范和业务逻辑。Skills 就是为他准备的入职手册和知识库，让他能快速上手并专业地完成工作。

在技术上，Skills采用了一种精妙的三层渐进式披露架构，按需加载信息，极大地优化了上下文窗口（Token）的使用效率。

第一层：目录索引（Metadata）

每次对话开始时，AI只会看到所有已安装技能的“目录”，即每个技能的名称（name，最多64字符）和一句话描述（description，最多1024字符）。这一层只占用约100个token，AI可以感知数百个技能的存在而几乎不增加负担。

第二层：详细步骤（SKILL.md）

当AI通过metadata判断当前任务需要某个skill时，它会动态加载该技能文件夹下的 SKILL.md 文件。这个文件是技能的核心，采用YAML前导格式定义元数据，主体是Markdown格式的详细操作指令。此时AI才真正学会如何具体操作。

第三层：参考资料（链接文件）

在真实工作中，主手册无法涵盖所有细节。因此，技能目录下可以包含其他参考文件，如各种表单填写规则（forms.md）、品牌视觉规范、代码示例库等。AI只会在执行特定子任务时才去按需读取这些文件。

这种三级结构的上下文窗口动态变化过程，可以PDF表单填写为例：

阶段1：初始状态（第一层）
用户输入：“用PDF技能填写这份合同”。AI看到“PDF技能”的描述，判断需要加载详细手册。

[系统提示] + [技能目录] + [用户消息]
↑
“用PDF技能填写这份合同”

阶段2：加载主手册（第二层）
AI加载 pdf/SKILL.md，了解基本操作流程。

[系统提示] + [技能目录] + [用户消息] + [SKILL.md完整内容]
↑
“明白了，先读取PDF，再识别表单字段，然后填写”

阶段3：按需加载子手册（第三层）
AI根据SKILL.md的指引，在需要填写具体表单时，加载 pdf/forms.md 查看特殊规则。

[系统提示] + [技能目录] + [用户消息] + [SKILL.md] + [forms.md]
↑
“这个表单看起来像W-9税务表，按照forms.md的特殊规则处理”

阶段4：执行任务
最终，AI结合所有信息执行任务并返回结果。整个过程不会一次性加载所有资料，Token消耗可降低70-90%。

Skills的架构与代码执行

从架构上看，一个完整的Skills体系包含代理配置和代理虚拟机两部分。

代理配置包含：

核心系统提示词（Core system prompt）
已装配的技能（Equipped Skills），例如 bigquery, docx, nda-review, pdf, pptx, xlsx 等
已装配的MCP服务器（Equipped MCP servers），可连接远程服务器

代理虚拟机为技能执行提供环境，包括：

Bash, Python, Nodejs 等运行时环境
文件系统，技能以文件夹形式存放，例如：
- skills/bigquery/ 包含 SKILL.md, datasources.md, rules.md
- skills/docx/ 包含 SKILL.md, ooxml/, spec.md, editing.md
- skills/pdf/ 包含 SKILL.md, forms.md, reference.md, extract_fields.py

一个标准的Skill目录结构如下：

my-skill/
├── SKILL.md        # 说明书（主提示词）
├── scripts/        # 可执行脚本（Python / Bash 等）
│   └── helper.py
├── references/     # 需要读进上下文的文档
└── assets/         # 模板、二进制文件等，只按路径引用

代码执行：为AI配备确定性工具箱

Skills的强大之处在于，它不仅可以包含文档，还能封装可执行的脚本。这用“确定性代码”补足了“随机性模型”的短板，适用于排序、过滤、复杂文件操作、调用命令行工具等需要100%准确性的任务。

以PDF技能为例，其 SKILL.md 文件可能如下所示，其中包含了YAML前言、概述和指向其他文件的链接：

---
name: pdf
description: Comprehensive PDF toolkit for extracting text and tables, merging/splitting documents, and filling-out forms.
---
# Markdown
## Overview
This guide covers essential PDF processing operations using Python libraries and command-line tools. For advanced features, JavaScript libraries, and detailed examples, see .//reference.md
If you need to fill out a PDF form, read .//forms.md and follow its instructions.

## Quick Start
```python
from pypdf import PdfReader, PdfWriter

# Read a PDF
reader = PdfReader("document.pdf")
print(f"Pages: {len(reader.pages)}")

# Extract text
text = ""
for page in reader.pages:
    text += page.extract_text()

在 forms.md 中，可能会指导AI运行一个预写的Python脚本来提取表单字段：

If you need to fill out a PDF form, first check to see if the PDF has fillable form fields. Run this script from this file's directory:
`python scripts/check_fillable_form_fields.py`,
and depending on the result go to either the "Fillable fields" or "Non-fillable fields" and follow those instructions.

# Fillable fields
If the PDF has fillable form fields:
# Run this script from this file's directory:
python ./extract_fields.py <input.pdf> <output.json>

而 extract_fields.py 脚本的内容可能是：

from pyppdf import PdfReader
def write_field_info(pdf_path: str, output_path: str):
    """Extract form fields from PDF and store as JSON."""
    reader = PdfReader(pdf_path)
    fields = get_fields(reader)
    with open(output_path, "w") as f:
        json.dump(fields, f)
# ... omitted ...
if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: python extract_fields.py <input_pdf> <output_json_path>")
        sys.exit(1)
    write_field_info(sys.argv[1], sys.argv[2])

关键在于，Claude可以运行这个脚本，而不需要把脚本本身或PDF内容加载进上下文。脚本在沙箱中执行，只将结构化的JSON结果返回给AI。这既节省了Token，又提高了处理大文件的效率和稳定性。

在技能中，调用模式通常是写在 SKILL.md 里的自然语言流程：

## 分析流程
1. 使用Bash工具执行：
   `python {baseDir}/scripts/analyzer.py --path "$TARGET_DIR" --output report.json`
2. 用Read工具读取 `report.json`
3. 解析其中的字段，生成自然语言总结

{baseDir} 是一个变量，指向当前技能的安装路径，确保了技能的可移植性。

技术对比：Skills的独特定位

Skills vs. MCP (Model Context Protocol)

Skills与MCP构成互补而非替代关系。简单概括：Skills解决“怎么做”（方法论/工作流），MCP解决“连到哪儿”（连接外部系统）。

对比维度	Claude Skills	Model Context Protocol
设计目标	封装人类工作流和领域知识为可复用指令	为LLM调用外部工具提供统一接口
触发机制	自动检测，基于描述匹配	代理通过协议显式调用函数
配置复杂度	创建文件夹和Markdown文件，无运行时服务	需部署MCP服务器，编写JSON配置
Token效率	渐进披露，初始开销极小	通常需预加载API文档，消耗数千tokens
执行环境	完全在Claude沙箱内运行	外部服务器执行，返回结果给Claude
适用场景	嵌入专业知识和内部流程	连接实时数据源和遗留系统

如果把整个AI体系想象成一栋楼，MCP是一楼机房，负责把“水电气网”（外部系统）接进来；而Skills是楼上的办公室，负责定义“大家具体怎么用这些资源干活”。

Skills vs. 传统Agent架构

传统多Agent架构像一个团队，有总控Agent和多个各司其职的子Agent（写代码、查资料、出报告等），它们之间需要复杂的消息传递和上下文协调。

Skills架构则更像是只有一个核心员工（如Claude），但可以根据场景动态加载不同的“专业模式”或“角色手册”。LangChain将其称为一种“轻量级、单Agent版的quasi-multi-agent架构”。

其工作流程可以简化为：用户请求 -> 主代理 -> 根据需要调用技能A、技能B或技能C -> 生成最终响应。

这种架构的优势非常明显：

维度	传统多Agent架构	Skills架构
复杂度	高。需设计Agent拆分、调度策略、消息协议。	低。只需编写Skill文件夹，调度由模型自动匹配。
上下文与Token	高。多Agent反复传话，需压缩摘要，易失真。	低。三级渐进式加载，精准投放信息。
专业知识复用	难。知识散落在各Agent的长Prompt中，复制粘贴为主。	易。方法论固化为Skill文件夹，可通过版本库（如`github.com`）共享、评审。
团队协作	易割裂。不同团队“各养一个Agent”。	易整合。各团队维护不同Skill，集成于同一Agent。
调试观测	困难。需排查是哪个Agent、哪次消息传递出了问题。	清晰。只需关注：技能是否选对、SKILL.md设计是否合理、脚本是否有bug。

当然，Skills并非万能。在需要物理隔离权限、使用完全不同模型、或要求极端干净上下文隔离的场景下，独立的多Agent架构仍是更佳选择。业界共识是：默认先用Skills扩展现有Agent，仅在遇到上述硬性需求时，再考虑引入新的独立Agent。

总结与展望

Skills工程通过将领域知识模块化、流程化，为通用AI模型装上了可随时切换的“专业工具箱”。它降低了AI应用的专业化门槛，使非技术用户也能通过组合现有技能解决复杂问题，同时为开发者提供了可版本化、可共享的知识资产沉淀方式。

展望未来，随着Skill开源生态的繁荣和标准的普及，我们有望看到企业内部的“技能库”和跨平台的技能市场出现，进一步推动AI从对话助手向真正的生产力伙伴演进。对开发者而言，深入理解并实践Skills工程，将是构建下一代智能化应用的关键能力。你可以关注 云栈社区 上的 开源实战 和 技术文档 板块，以获取更多相关的深度分析和实践案例。

参考资料

[1] （文末附来源）2026开年新概念：万字讲清 Skills, 微信公众号：mp.weixin.qq.com/s/k1nQFXTBBCMY47v3x8gS6g

版权声明：本文由云栈社区整理发布，版权归原作者所有。

上一篇：解析MP4文件交错问题：如何避免Chrome播放引发的CDN带宽激增
下一篇：掌握Wireshark网络分析：从基础抓包到TCP三次握手实战解析

Claude Skills, Agent Skills, 技能工程, AI代理, Python