云栈社区»论坛 › 技术文档「 Note & Doc 」 › 深入解析OpenClaw：它与Skills、Agent、RAG及MCP的关系与架构全 ...

5475 积分	0 好友	759 主题

发消息

深入解析OpenClaw：它与Skills、Agent、RAG及MCP的关系与架构全景

发表于 2026-3-14 03:20:57 | 查看: 79| 回复: 0

昨天，一位刚入行不久的朋友在技术群里向我提问：“看了两天OpenClaw的资料，Skills、MCP、RAG、Agent这些名词看得我头晕，它们之间到底是什么关系？OpenClaw本身又是做什么的？”

我的回答是：“你见过小龙虾吗？OpenClaw就像那只‘龙虾’，其他几个概念分别是它的‘钳子’、‘脑子’和‘食谱’。”

最近，OpenClaw在GitHub上势头迅猛，斩获近30万星标，成为2026年初最受瞩目的开源项目之一。但许多开发者和我的朋友一样，被这一连串的新概念弄得云里雾里。本文将通过一张核心架构图和一个生动的比喻，为你清晰地梳理这些概念之间的联系，帮助你理解OpenClaw的设计哲学。

01 一个故事讲清所有概念

在深入技术细节之前，我们先用一个古代的故事来打个比方。

假设你是一位皇帝（用户），手下有一位聪明的军师（大语言模型）。军师博学多才，但他被困在军师府（云端服务器），对外界发生的事情一无所知。

你想了解边疆的战况（实时信息），军师回答说：“我不知道，我没去过边疆。”——这就体现了大模型的 知识截止 问题。

于是，你命人将边疆的地图和情报全部搬进军师府。军师查阅这些资料后，向你汇报了战况。——这个过程模拟的就是 RAG（检索增强生成）。

你觉得还不够，希望军师能直接指挥前线的部队。你下令：“让张三将军即刻出兵！”军师却回答：“我不认识张三将军，也不知道如何调兵遣将。”——这反映了模型 行动能力缺失 的问题。

为此，你定下规矩：当需要调兵时，军师只需写一道格式固定的圣旨，例如“调兵：将军=张三，数量=1000”。然后，由专门的传令官（执行器）负责传递圣旨并完成调兵。——这便对应了 Function Calling（函数调用） 机制。

后来，任务变多了，调兵、调粮草、征调民夫各有其复杂的流程和文书格式。你为每位将军都配备了专属传令官，并制定了一套统一的通信规范，规定传令官应使用何种格式、在何处接收指令。——这套规范就类似于 MCP（模型上下文协议）。

但你发现，军师虽然懂得如何下达单项命令，却不清楚在复杂战局中何时该调兵、调多少兵力、以及如何与其它行动配合。于是，你赐予军师一本《用兵手册》，其中明确写道：遭遇敌军攻城时，应首先调兵增援，随后调集粮草，最后组织民夫修筑工事。——这本手册所定义的，就是 Skills（技能）。

最终，这位军师既拥有思考能力（大模型），又具备记忆（Memory系统），还能查阅外部资料（RAG），可以执行具体命令（通过MCP或函数调用），并能够按照既定策略行动（Skills）。这样一个完整的、自主的个体，就是一个 Agent（智能体）。

而 OpenClaw，就是一个将上述所有能力打包整合、开源、并且能运行在你本地电脑上的“皇帝身边的传令中枢”——你只需在微信或飞书上给它发送一句话，它就能像那位全能军师一样，帮你调兵遣将、管理文件、甚至操作你的电脑。

02 概念全景图：一张图看懂所有关系

OpenClaw本地AI Agent平台架构图

（上图清晰地展示了OpenClaw平台各层级模块之间的关系，接下来我们将逐层拆解。）

03 第一层：核心大脑——Agent

Agent（智能体） 是一个能够感知环境、做出决策并执行动作的自主系统。

在OpenClaw的核心架构中，Agent采用了经典的“观察-计划-行动”循环范式。当接收到用户消息时，其工作流程如下：

观察：理解用户的意图，并审视当前环境与状态。
计划：将复杂任务拆解为步骤，决定需要调用哪些工具或技能。
行动：执行具体的操作，并获取结果。
循环：基于行动结果再次观察和计划，直至任务完成。

在OpenClaw中，每个Agent都拥有独立的工作区，包含一系列定义其行为的配置文件：

AGENTS.md    # Agent职责声明，决定其可使用的工具权限
SOUL.md      # 个性化提示词，用于注入system prompt
TOOLS.md     # 工具白名单/黑名单，定义安全边界
IDENTITY.md  # 身份标识，用于在不同聊天渠道中展示
USER.md      # 用户偏好设置，提供上下文先验知识
MEMORY.md    # 用户记忆文档（也是RAG的知识来源之一）

这种设计使得Agent不再是一个黑盒，而是完全可配置、可审计的实体。对于希望深入AI Agent原理和实践的开发者，理解这种可配置性至关重要。

04 第二层：记忆层——Memory系统

Memory（记忆） 是赋予AI持久化记忆能力的核心机制。

大模型本身是无状态的HTTP服务，每次请求结束后，对话内容便随风而逝。OpenClaw通过分层记忆机制解决了这个问题：

短期记忆：完整保留最近若干轮的对话原文。
长期记忆：在后台触发小模型，将更早的历史对话压缩成摘要，并提取关键的“实体特征”（例如“用户是上海的一位Python后端工程师”），然后存入数据库。

OpenClaw的记忆系统设计独特——它完全基于 SQLite 构建。其源码揭示了它采用“向量+关键词”混合检索的精妙策略：

// OpenClaw记忆检索的核心逻辑（伪代码）
async function searchMemory(queryVector, limit = 5) {
  try {
    // 1. 快速路径：使用sqlite-vec扩展进行原生向量检索
    return await db.all(`
      SELECT c.text, vec_distance_cosine(v.embedding, ?) AS dist
      FROM chunks_vec v
      JOIN chunks c ON c.id = v.id
      ORDER BY dist ASC LIMIT ?
    `, [queryVector, limit]);
  } catch (err) {
    // 2. 安全路径：扩展不可用，退回到JS计算
    const allChunks = await db.all("SELECT text, embedding FROM chunks");
    return allChunks
      .map(chunk => ({
        ...chunk,
        dist: cosineSimilarity(queryVector, JSON.parse(chunk.embedding))
      }))
      .sort((a, b) => a.dist - b.dist)
      .slice(0, limit);
  }
}

这种设计的精妙之处在于：优先使用原生扩展追求极致性能，在扩展不可用时则优雅降级至纯JS计算，确保了记忆功能在任何环境下都坚如磐石。

05 第三层：知识层——RAG是什么？

RAG（检索增强生成） 旨在解决大模型知识“冻结”的难题——模型训练完成后，其知识库便停止更新，无法知晓最新的新闻或企业内部文档。

RAG的核心流程是“先检索，后生成”：

用户提出一个问题。
系统在专属知识库中检索与问题最相关的文档片段。
将这些检索到的资料与原始问题一同提交给大模型。
模型基于提供的上下文资料生成最终答案。

在OpenClaw中，RAG的实现同样依托于SQLite。它能够将你的本地Markdown、PDF等文档进行向量化处理，存入本地的向量数据库中。每当Agent需要回答问题时，会先从这个私密知识库中查找相关信息，再结合找到的资料进行回答。

06 第四层：工具层——Function Call和MCP

Function Call：让AI能“动手”

Function Call（函数调用） 是大语言模型的一项核心能力。开发者预先告知模型“你拥有这些工具（函数）”，当模型判断需要时，会输出一个结构化的调用请求，随后由后端的真实代码来执行这个函数。

// Function Call的典型流程
// 用户提问：“北京天气怎么样？”
// 模型输出结构化调用请求：
{
  "function": "get_weather",
  "parameters": {"city": "北京"}
}
// 后端开发者调用真实的天气API，获取数据。
// 模型收到API返回的数据后，生成最终回答：“北京当前天气晴，气温25℃。”

MCP：标准化的工具调用协议

MCP（Model Context Protocol） 是由Anthropic提出的一个标准化协议，旨在统一工具调用的接口规范。它让工具开发者按照统一的标准编写工具，也让模型能够按照统一的格式进行调用，从而实现工具生态的互通和复用。

然而，OpenClaw做出了一个有趣且关键的设计选择：它目前故意不支持MCP。原因主要基于以下几点考量：

安全与隐私：MCP设计上涉及多模型间的上下文共享，在本地化部署场景下可能引入额外的数据泄露风险。
技术灵活性：开发团队希望保持快速迭代和架构演进的自由，不被固定的外部协议所束缚。
资源与性能优化：减少外部依赖可以降低系统复杂度，有助于提供更快的响应速度和更轻量的部署体验。

因此，OpenClaw采用了其自创的、更轻量级的 Skills 机制来替代MCP的角色。

07 第五层：流程层——Skills是什么？

Skills（技能） 是OpenClaw框架中最核心的创新点。如果说MCP或Function Call定义的是“单个工具”，那么Skills封装的就是“一整套完整的操作流程”。

Skills要解决的核心问题是：即使模型知道了有哪些“工具”可用，它也可能不清楚“在什么时机使用”、“按什么顺序使用”以及“如何组合使用”。就像一个人拥有了锤子、锯子和钉子，但不知道如何制作一把椅子——他需要的是一份《木工指南》。

在OpenClaw中，Skills就是这份“操作指南”。例如：

memory：记忆技能，负责保存和调用用户偏好及历史信息。
web_search：网络搜索技能，用于获取实时互联网信息。
browser：浏览器控制技能，可以打开网页并提取内容。
file：文件操作技能，用于创建、读取、修改本地文件。

安装Skills极为简单：

clawhub install memory   # 安装记忆技能
clawhub install browser  # 安装浏览器控制技能

OpenClaw官方的ClawHub技能注册中心提供了超过一千款技能插件，覆盖了办公自动化、代码管理、数据分析等众多领域。这种丰富的技能生态，正是其项目在GitHub上如此受欢迎的原因之一。

08 OpenClaw：集大成者的智能体平台

现在，让我们将所有的概念串联起来，看OpenClaw如何作为一个整体运作。

OpenClaw是什么？
OpenClaw（原名Clawdbot/Moltbot）是由奥地利开发者Peter Steinberger主导发起的开源AI Agent框架。它采用MIT开源协议，自2025年末发布以来，社区增长迅速，吸引了大量贡献者。一句话概括：它是一个部署在你本地、永远在线、坐在你的消息应用和各种工具链之间的智能体运行时和网关。

OpenClaw的四层架构：

层级	组件	作用
控制网关层	Gateway	统一管理所有入站和出站通信，支持Telegram、飞书、钉钉等超过22个平台的消息接入。
推理与认知层	Reasoning Layer	接入大语言模型，执行核心的“观察-计划-行动”循环，是Agent的思考中枢。
记忆与状态层	Memory System	基于SQLite构建的持久化记忆系统，存储短期对话、长期摘要和实体特征。
技能与执行层	Skills & Execution	调用具体的Skills来执行文件操作、网络搜索等实际任务。

一个完整的执行流程示例：

用户在微信上发送消息：“帮我整理一下桌面上的文件。”
网关层接收消息，并将其转发给对应的Agent。
Agent分析任务，决定调用 file（文件操作）技能。
file 技能执行具体的文件整理操作（如按类型分类），并返回操作结果。
记忆层自动记录此次任务的操作类型和结果，供未来参考。
Agent生成最终回复，并通过网关发送给用户：“已完成整理，已将图片文件移动至‘Pictures’文件夹。”

09 技术选型思考：OpenClaw 还是 Dify？

理解了OpenClaw的定位后，一个自然的问题是：在实际企业应用中，何时该选择OpenClaw，何时又该选择Dify这类工作流平台？

根据行业实践，两者的核心区别如下：

维度	OpenClaw	Dify / Workflow 类平台
设计理念	Agent优先：相信并依赖LLM的自主规划与决策能力。	流程控制优先：通过可视化画布严格编排和控制每一步操作。
流程控制	动态、自主：由Agent根据实时情况规划任务步骤。	静态、预设：流程在运行前已由开发者完全定义好。
适用场景	高自由度、难以预先定义所有分支的开放式任务。	标准化的、需要严格审核或遵守固定程序的流程性任务。
典型应用	系统运维、个性化文件管理、复杂的浏览器自动化。	客服对话流程、请假审批流程、内容合规审查。

简而言之：需要AI自己动脑筋解决复杂、多变问题的场景，适合用OpenClaw；需要AI严格、可靠地执行既定标准流程的场景，适合用Dify。 两者甚至能够结合，例如将Dify编排好的稳定工作流封装成一个OpenClaw Skill，让Agent在需要时调用这个封装好的标准化流程。

10 安全提醒：谨慎部署你的智能体

最后，必须强调一个至关重要的点：OpenClaw被设计为拥有强大的执行力，包括执行Shell命令和直接操作文件系统，这意味着它在运行时拥有与启动它的用户同等的系统权限。

请务必遵守以下安全准则：

切勿在主力生产环境“裸奔”：建议在虚拟机、容器（如Docker）或专用的测试机器/账号中先行部署和测试。
妥善保管API密钥：切勿将包含API Key的配置文件提交至公开的代码仓库，也避免在截图或日志中泄露。
长期运行建议隔离环境：对于需要7x24小时运行的服务，强烈建议使用Docker容器或独立的VPS（云服务器）进行部署，实现权限和资源的隔离。
保持安全意识：永远不要将其视为完全可信的“文件传输助手”或“系统管理员”，应时刻假设其操作可能存在潜在风险。

总结

回到最初的问题：OpenClaw与Skills、MCP、RAG、Agent之间究竟是什么关系？

Agent 是宏观概念，指能够自主行动的智能体；OpenClaw是Agent的一个具体、开源的实现框架。
RAG 是为Agent提供外部新鲜知识和私有文档的“查阅”方法。
Memory 是让Agent记住过往交互历史、形成长期认知的“记忆”方法。
MCP 是一种标准化工具调用的协议，OpenClaw出于自身设计考量，目前选择了不直接集成。
Skills 是OpenClaw独创的、将工具与使用逻辑打包的“流程”模块，是其执行能力的核心体现。
OpenClaw 则是将以上所有能力（除MCP外）整合在一起，形成一个可在你本地部署和运行的、功能完整的智能体平台。

如果你对这篇文章探讨的AI Agent及其相关技术感兴趣，想要了解更多实战项目、架构解析或前沿讨论，欢迎来到云栈社区与更多开发者交流。从理解Agent的基本概念开始，然后尝试动手部署一次OpenClaw，是学习这项技术的最佳路径。跟随官方或社区教程，你很可能在15分钟内就看到你的第一个智能体运行起来。

相关资源链接：

OpenClaw 开源仓库：https://github.com/openclaw （原名clawdbot/moltbot）
快速部署指南：https://mp.weixin.qq.com/s?__biz=MzkwNjMwMTgzMQ==&mid=2247535401&idx=1&sn=3d9596cc07051e827bf7024679d3f462&scene=21#wechat_redirect （此为原文已有链接，予以保留）

上一篇：企业级XDR部署实战指南：从终端告警到看懂全局攻击链
下一篇：Nginx实战中的4个细节与解决方案：从路径匹配到WASM部署

OpenClaw, 技能, Agent, RAG, AI框架