云栈社区»论坛 › 技术文档「 Note & Doc 」 › 深入解析OpenClaw：火爆背后的AI智能体架构与技术栈实现 ...

发回帖发新帖

5171 积分	0 好友	703 主题

发消息

深入解析OpenClaw：火爆背后的AI智能体架构与技术栈实现

发表于 2026-3-15 05:47:09 | 查看: 174| 回复: 0

腾讯大厦楼下排起长队、闲鱼上门安装500元一次、地方政府出台“龙虾十条”补贴政策——这只“赛博龙虾”到底什么来头？

引言：当AI学会“动手”

2026年3月，深圳南山区腾讯总部大楼下，上百人抱着电脑排起长队。他们并非领取赠品，而是等待工程师免费安装一个名为OpenClaw的开源AI智能体。同一时期，阿里云上线“OpenClaw一键部署”，小米宣布将MiclawAgent植入手机、汽车、电视，智谱、MiniMax等模型厂商纷纷跟进。

OpenClaw（国内网友昵称“小龙虾”）在GitHub上的星标数量，仅三周便突破25万，超越Linux三十年的积累，登顶全球榜首。从深圳公务员的“政务龙虾”上线，到抖音上的全民刷屏，这场“养虾热”已从技术圈破圈，演变为一场全社会层面的AI启蒙运动。

为什么OpenClaw能引发如此热潮？因为它回答了一个核心问题：AI如何从“能聊天”进化为“能交付”？

一、核心定位：不是新“大脑”，而是新“肢体”

初次听闻OpenClaw能帮你订票、整理邮件、操作电脑软件时，你或许以为这又是一个更聪明的聊天AI机器人。但这恰恰是目前对“养龙虾”最大的误解。

OpenClaw本质上不是一个独立的大模型，而是一个自托管的智能体网关与执行框架。 它将WhatsApp、Telegram、飞书等聊天入口，与大模型、会话、记忆和工具系统连接起来，成为一个能持续在线、可跨渠道触达、可调用工具的个人智能助手。

中国电子信息产业发展研究院专家钟新龙打了一个比方：“它并不能在聊天时比其他AI回答得更像人类，但能在你的设备或服务器上，按你的规则替你干活。”多数对话式AI的基本单元仍是“提问—回答”，而OpenClaw的基本单元已转变为“会话状态—工具调用—结果回写—持续记忆”。

简而言之，OpenClaw并不生产“智力”，它只是现有大模型智力与物理世界、数字软件之间的“组装工人”和“操作系统”。

二、四层架构：从消息到执行的完整旅程

OpenClaw采用分层解耦的架构设计，主要包含四大核心模块，清晰定义了一条消息从接收、处理到执行的全过程。

第一层：交互层——50+终端统一接入

你在WhatsApp上发消息，它在飞书里回复；你在终端敲命令，它也能听懂。OpenClaw的设计理念是“Any OS. Any Platform.”，强调跨设备的无缝接入体验。

目前支持的情况包括：

核心通道（8个）：Telegram、WhatsApp、Discord、IRC、Google Chat、Slack、Signal、iMessage
扩展通道（50+）：通过插件系统延伸至更多垂直领域
企业通讯：Microsoft Teams、Mattermost、飞书
社交网络：Twitter/X、Twitch、Matrix、Nostr

这一层扮演着“翻译官”的角色——每个渠道都有自己的消息协议，交互层的任务是将所有这些接口的通信格式，统一翻译成OpenClaw内部能够理解的标准化语言。

第二层：网关层——系统总中枢

Gateway是OpenClaw的核心服务中枢，是整个系统的“大管家”。它是一个常驻后台的服务，主要职责有三项：

第一，路由：根据消息的来源渠道、会话ID等信息，将其精准分配给对应的会话处理器，支持通配符和精确匹配等多种路由策略。

第二，排队：采用“车道式队列”设计，保证不冲突的任务可以并行处理，而存在资源争用的任务则串行执行，有效避免死锁和状态混乱。

第三，调度定时任务：例如，配置了每天早上8点发送日报的任务，网关会准时唤醒对应的Agent来执行。

技术亮点：基于WebSocket实现全双工通信（默认端口18789），支持流式响应推送；同时提供一个HTTP服务器，用于承载控制面板、REST API和Webhook端点等功能。

第三层：智能体层——真正的“大脑”

Agent是系统的“大脑”，负责理解上下文意图、制定分步计划、调用工具或技能完成任务。每个Agent都有自己专属的工作区，包括配置文件、记忆文件和技能库，实现任务的专业分工和高效执行。

核心组件包括：

会话管理器：为每个独立的对话创建并维护专属会话，隔离不同用户的上下文，避免信息串扰。
上下文组装器：在每次对话开始前，将Agent的人格设定、可用工具列表、历史对话记录等要素，动态拼装成完整的大模型提示词。
执行循环：当大模型决定调用某个工具后，该组件负责工具的调度、参数传递、结果处理以及可能的多轮交互。
记忆系统：采用三层架构——短期记忆（存储当日交互日志）、近端记忆（存储完整的历史对话存档）、长期记忆（存储提炼出的用户偏好和关键知识）。

记忆模块采用三级存储架构：Redis集群存储最近200条交互上下文（短期），Milvus向量数据库实现基于语义的相似性检索（长期），PostgreSQL存储实体关系图谱（结构化）。关键技术突破在于记忆蒸馏算法，可将冗长的对话历史压缩为结构化的知识图谱节点，使长期记忆的检索效率提升约40%。

第四层：执行层——真正的“手脚”

Skills是系统的“工具箱”，提供了一系列可扩展的插件，使Agent能够执行各种特定任务，如文件读写、代码生成、邮件发送等。官方工具栈已包括browser（浏览器控制）、canvas（画布操作）、pdf、image、cron（定时任务）等。

执行层分为两部分：

本地节点：与网关运行在同一台机器上，负责执行通用、安全的本地技能。
远端节点：运行在其他物理设备或服务器上，通过WebSocket长连接与网关通信，用于执行特定环境下的任务。

技术核心：Pi-embedded组件实现了“Cell Isolation”沙箱机制。在执行任何技能脚本前，它先对当前环境变量进行快照，然后在独立的虚拟环境中执行脚本，执行完毕后再恢复原环境，有效保障了宿主系统的安全。需要注意的是，Pi-embedded默认在独立的Python venv中运行，用户必须在claws.yaml配置文件中明确定义dependencies，由执行端在启动时自动静默安装。

三、架构演进：从单体到插件化

2026年1月，OpenClaw通过PR #661完成了重大插件化重构，核心目标是将模型提供商从核心代码中彻底解耦，转化为可独立开发、分发和升级的插件包。

重构前的困境

在单体架构下，核心路由文件model-router.ts充斥着大量的else-if分支来匹配不同的模型提供商，代码结构臃肿不堪：

if (model.startsWith('anthropic/')) {
    return this.anthropicProvider.call(...args);
} else if (model.startsWith('openai/')) {
    return this.openaiProvider.call(...args);
} // ... 后面还有15个以上的else-if分支

每新增一个模型提供商，就需要在路由文件中增加一个分支，代码复杂度随提供商数量线性增长。同时，测试也存在严重的依赖链问题——修改一个Provider的实现，可能会意外导致其他无关Provider的测试用例失败。

插件化新架构

重构后的架构核心思路是“接口标准化+动态加载”。首先定义统一的Provider接口：

// 核心接口定义
export interface Provider {
  readonly name: string;
  readonly version: string;
  chat(messages: Message[], options: ChatOptions): AsyncIterator<string>;
  // ... 其他方法
}

然后通过动态导入机制加载插件：

// 动态加载机制
const module = await import(packageName);
const provider = new module.default();
this.providers.set(provider.name, provider);

新的路由逻辑基于插件名称进行解析与动态调用，彻底消除了else-if分支，使代码复杂度从O(n)降至O(1)。

重构后的技术优势

依赖隔离：核心框架不再直接依赖任何模型厂商的SDK，打包后的Bundle体积从45MB大幅降至8MB。
并行开发：核心团队只需维护接口的稳定性，社区开发者可以独立实现和优化具体插件，开发效率大幅提升。
版本自治：每个插件拥有独立的版本号，可以独立发布更新，无需等待核心框架发版。
安全增强：结合沙箱机制和权限声明，确保第三方插件运行在受限环境中，无法越权访问系统资源。

四、连接方式的三种模式

OpenClaw将不同即时通讯厂商的连接模式抽象为三大类，以适应多样化的部署环境。

1. WebSocket模式 + Polling长轮询

本地服务器主动向IM厂商的服务器发起并维持一个长连接，以接收消息。

优势：无需公网IP，非常适合个人开发者在内网环境（如本地电脑、家庭NAS）中进行部署和测试；配置通常非常简单，只需提供App ID和Secret即可启动。
劣势：客户端需要持续维持长连接心跳，对本地网络的稳定性有一定要求，连接断开后需要重连。

2. WebHook模式（被动推送）

代表通道：Google Chat、Telegram (Webhook)、飞书、钉钉、Microsoft Teams。

优势：节省资源，本地服务器不需要维持长连接，只有在IM平台有消息推送过来时才会被唤醒处理；该模式通常得到IM官方的良好支持。
劣势：强烈依赖公网IP，服务器必须对外暴露特定端口（如443, 80），本地开发测试必须借助ngrok、frp等内网穿透工具；对服务器的网络安全配置要求较高。

3. CLI与其他模式

代表通道：Signal（依赖signal-cli命令行工具）、iMessage（依赖imsg）、IRC（TCP直连）。

特点：这类通道通常不提供标准的开放HTTP/WebSocket API，必须通过劫持本地客户端工具或使用极其底层的套接字协议来实现。环境配置要求极为苛刻，例如iMessage必须运行在macOS系统上，并配置复杂的证书和权限。

五、安全架构：能动手，就必须能管住

OpenClaw能调用系统工具，这意味着它不再只是一个被动的聊天机器人，而是一个“能动手”的自动化系统。能力越大，责任越大，安全管控必须同步跟上。

主要安全风险

间接提示词注入：恶意网页、PDF或邮件中可能嵌入隐藏的指令标记，诱导处理这些内容的OpenClaw执行危险操作（如删除文件、发送邮件）。
第三方Skill安全：从社区安装的第三方Skill可能存在恶意代码、未声明的权限请求或代码漏洞，带来数据泄露或系统破坏风险。
本地设备安全：在本地部署时，OpenClaw的权限与运行它的用户账号权限绑定。如果宿主设备本身被恶意软件入侵，OpenClaw也可能被利用。

安全防护体系

传输层：全链路强制使用TLS 1.3加密通信，防止中间人攻击和数据窃听。
数据层：对配置文件中的API密钥、数据库密码等敏感信息，采用同态加密进行存储。
权限层：基于角色的访问控制（RBAC），实现用户、Agent、Skill之间的细粒度权限管理。
执行层：严格限制每个Skill的权限范围（文件系统、网络、环境变量），对于高风险操作（如删除、支付）启用二次确认机制。

安全形势不容乐观。MITRE ATLAS团队在2026年2月发布的报告中指出，研究人员发现了超过4.2万个暴露在公共互联网上的OpenClaw实例，其中90%以上可以被攻击者直接绕过身份验证。就连Meta实验室的AI对齐总监Summer Yue，在为OpenClaw开放邮箱权限进行测试后，也因AI意外丢失了约束指令，导致收件箱被批量清空。

3月10日，国家互联网应急中心发布《关于OpenClaw安全应用的风险提示》，明确指出如果采用缺乏安全限制的默认配置，攻击者可能获得系统的完全控制权。国家信息安全漏洞库（CNNVD）的统计数据更是触目惊心：自2026年1月至3月9日，共收录OpenClaw相关漏洞82个，其中超危漏洞12个，高危漏洞21个。

六、谁在“真养虾”？——产业链的红利分配

如果将“养龙虾”热潮拆解开来观察，我们会发现一个典型的技术扩散与红利分配链条：当普通用户还在热烈讨论如何部署和使用时，真正的经济效益已经率先流向产业链的底层和上游。

第一波获利：大模型公司

OpenClaw执行任务时消耗Token的速度远超普通对话。根据用户实测，中度使用一个月，模型API费用轻松过百元，重度用户动辄成千上万元。一旦接入Claude-3.5-Sonnet等昂贵模型，月消耗甚至可达数万元。有数据显示，重度用户日均Token消耗量在3000万到1亿之间。即使使用国产的MiniMax M2.5模型，一天的成本也在42到140美元。

MiniMax的M2系列模型在2026年2月的平均单日Token消耗量，已增长至2025年12月的6倍以上，其中来自“代码生成与执行”场景的Token消耗量增长超过10倍。另一家模型公司无问芯穹在未进行大规模推广的情况下，其Token消耗量在20天内增长了500%，而新增用户中有90%都在使用OpenClaw。

第二波受益：科技大厂

3月9日，腾讯旗下全场景AI智能体WorkBuddy正式上线，宣称完全兼容OpenClaw的技能体系，最快1分钟即可完成配置。同日，字节跳动的火山引擎上线ArkClaw，提供开箱即用的云上SaaS版OpenClaw服务。3月10日，智谱AI上线AutoClaw，预置了超过50个热门Skills。3月11日，百度发布零部署服务DuClaw。

对云厂商而言，OpenClaw不是一个孤立的应用，而是一整套可持续变现的产品矩阵——前端是部署和托管服务，中段拉动模型API调用、云存储、网络带宽和安全产品的消费，后端则能衍生出针对金融、政务等行业的垂直解决方案。

第三波受益：硬件厂商

“养虾”热直接拉动了本地部署所需的硬件销量。Mac mini M4的多个型号在得物等平台售罄，最近一周价格最高上涨了649元，涨幅达13%。一些硬件厂商甚至推出了“OpenClaw一体机”，本质上是在预装好Nginx、Docker和优化版AI模型的本地服务器，用户购买后插电即可运行自己的智能体。

七、完整技术栈清单

核心运行时

Node.js ≥ 22：整个系统的基础运行时环境。
TypeScript（ESM，严格模式）：核心开发语言，确保类型安全和代码质量。
pnpm：包管理工具，用于管理依赖和构建工作区。

通信协议

WebSocket：网关与客户端之间实现全双工、低延迟通信（默认端口18789）。
HTTP/HTTPS：用于提供REST API、Web控制管理界面、接收Webhook回调。
Protobuf (Protocol Buffers)：Gateway服务与Pi-embedded执行端之间高效、跨语言的通信协议。

关键模块

Gateway：基于Node.js构建的中央路由与调度引擎。
Pi-embedded：执行端核心，实现“Cell Isolation”沙箱机制。
Channels：协议适配层，抽象并统一了50+消息平台的对接逻辑。
Agents：包含会话管理、上下文组装、执行循环等核心逻辑的智能体模块。
Skills：插件化技能系统，通过.md文件定义工具接口和调用方式。

安全与隔离

Cell Isolation：Pi-embedded的核心沙箱机制，隔离技能执行环境。
ProviderSandbox：模型提供商插件运行在受限的JavaScript环境中。
JWT/OIDC：用于身份认证与授权，管理用户和客户端访问权限。
TLS 1.3：保障所有网络通信的传输层安全。

数据存储

Redis：用于存储短期记忆（会话上下文）、维护节点心跳和缓存热点数据。
Milvus：专用于长期记忆的向量检索，支持高效的语义相似性搜索。
PostgreSQL/SQLite：用于存储用户信息、配置、结构化日志和实体关系数据。
文件系统：用于持久化存储会话状态、Agent配置、技能脚本等本地文件。

原生应用

Swift：用于开发iOS和macOS平台的官方客户端应用。
Kotlin：用于开发Android平台的官方客户端应用。

八、普通人要不要“养龙虾”？

在一片锣鼓喧天的“养虾”热潮中，也夹杂着普通人的焦虑：我的工作会被这只“龙虾”取代吗？我现在该不该尽快冲进去“养”一只？

“普通人没有必要为‘养龙虾’本身焦虑，但必须正视‘执行型AI正在重构数字劳动’这一趋势。”专家钟新龙这样认为。

OpenClaw官方将目标用户明确界定为“developers and power users”（开发者和高级用户），这本身就说明它目前还不是一款人人可以即装即用的大众消费级软件。放眼全球同类产品，Anthropic的Agent仍在Beta阶段，Google的版本还停留在原型，Microsoft的也仅是公开预览版，这说明整个“AI智能体”赛道仍处于快速试错和产品迭代期，远未达到稳定和普及的阶段。

给普通用户的务实建议：

从低风险场景开始：先把OpenClaw应用在可逆、低敏感性、以读取为主的任务上，例如公开网页信息检索、会议纪要草稿整理、简单的数据查询等。
避免连接核心系统：不要一开始就将它接入你的工资卡银行账户、核心工作邮箱或内部政务系统。
保留人工监督节点：在涉及资金支付、重要文件删除、敏感信息发送等关键操作节点，设置手动确认或完全由人工接管。
遵循最小权限原则：只按当前任务所需临时开放最小必要权限，任务完成后立即收回或禁用相关权限。

真正会先受到冲击的，是那些高度数字化、流程固化、可被清晰拆解为一系列浏览器点击、表单填写和文件流转的重复性工作环节。对于普通人而言，关键不是陷入被取代的恐慌，而是尽快去理解和识别，自己工作中的哪些部分正在从“需要人类语言描述”走向“可以被AI直接执行”。

结语：从“能聊天”到“能交付”

OpenClaw到底凭什么能火爆全民、引得大厂纷纷入局？

它回答的根本不是“如何让AI智能体更聪明”，而是如何让AI智能体更可靠。它将技术创新的重心，从一味追求模型的理解与生成能力，转移到了更底层的系统工程能力上：工具如何被编排调用？复杂的会话状态如何被有效管理？自动化带来的潜在风险如何被识别和控制？这些问题听起来并不性感，但在真实世界的落地过程中，每一个都是必须跨过的坎。

换言之，OpenClaw追求的核心价值不是“能聊”，而是能交付——可靠地、可控地完成一个具象化的任务。

正如全国政协委员、360集团创始人周鸿祎的评价，可以将OpenClaw比作刚入职的“实习生”，它充满潜力且学习能力强，但既需要持续的“训练”（调优），也必须建立严格的“公司规章制度”（安全规则）来约束。他提醒公众：“养龙虾，需谨慎。如果缺乏有效的管控机制，可能导致用户密码、API密钥等敏感信息被诱导泄露。”

从技术发展史来看，每一次平台级的变革，往往都始于一个看似不起眼甚至有些粗糙的开端。早期的Android只是极客们刷机玩物的系统，微信公众号最初也只是一个简单的内容发布工具。OpenClaw今天的处境，与这些早期产品有着惊人的相似之处——它看起来还不够精致、运行尚不稳定、需要用户一定的手动干预和纠错。但它所清晰指向的未来，一个由可靠、可执行的AI智能体深度融入数字化工作流的未来，已经足够让人振奋，并吸引着全球的开发者与企业在云栈社区这样的平台上持续探索。

如果你正在考虑将OpenClaw引入你的技术栈，建议先从 packages/pi-embedded 目录下的 protocol.py 文件看起，那里定义了万物互联的基石语言。

上一篇：使用cc-router协议转换工具：将Claude Code无缝接入OpenAI兼容后端
下一篇：OpenClaw到底咋样？我们这些普通用户真的需要它吗？

OpenClaw, AI智能体, Node．js, TypeScript, 微服务架构