云栈社区»论坛 › 站务中心「 Forum Service 」 › Hermes Agent 开源智能体：自创技能与四层记忆，让 AI 真正学会 ...

发回帖发新帖

3208 积分	0 好友	428 主题

发消息

Hermes Agent 开源智能体：自创技能与四层记忆，让 AI 真正学会学习

发表于 6 小时前 | 查看: 7| 回复: 0

你用过的每个 AI 智能体都有同一个问题。你周一教了它一些东西，到了周二它就全忘了。你又回到了起点，重新解释项目结构、你的偏好、整个工作流。就像每天早上都在培训一个新实习生。

Nous Research 打造了 Hermes Agent 来终结这个循环。

Hermes 是一个开源的、自托管的 AI 智能体，运行在你自己的服务器上，从它完成的每一个任务中学习，而且用得越久变得越好，这种提升是可衡量的。自 2026 年 2 月发布以来，它已经获得了超过 64,000 个 GitHub Star，并引发了开发者们所说的「迁移潮」——从之前占主导地位的开源智能体框架 OpenClaw 转向 Hermes。

有意思的部分不是采用数字。而是底层的架构，以及对任何想要一个「价值随时间累积而不是每次会话都归零」的 AI 的人来说意味着什么。

核心思想：一个会自己写操作手册的智能体

当 Hermes 成功完成一个任务时，它不只是记录结果然后继续。它会运行一次执行后评估，识别产生该结果的确切步骤序列、工具调用和推理过程，然后将这个序列编纂成一个可复用的「技能 ( Skill )」文档——一个 Markdown 文件，智能体下次遇到类似任务时会参考它。

这就是 Nous Research 所说的闭环学习循环 ( Closed Learning Loop )：执行、评估、提取、精炼、检索。而且它会累积。根据 Nous Research 发布的基准测试，使用自创技能的智能体完成研究任务比零提示调优 ( Prompt Tuning ) 的全新实例快 40%。

你在 5 美元 VPS 上跑了三个月的 Hermes 实例知道你的代码库、你的部署怪癖、你偏好的提交信息格式，以及那个针对你奇怪遗留集成 ( Legacy Integration ) 有效的精确 API 调用序列。全新安装的实例什么都不知道。

技能与工具：一个关键的区别

Hermes 在架构上对技能 ( Skill ) 和工具 ( Tool ) 做了严格区分，这比听起来重要得多。

Hermes Agent 技能与工具架构插画，展示 EVALUATE、EXTRACT、REFINE、RETRIEVE 四个流程

工具是通过 JSON 模式暴露给 AI 模型的 Python 函数。它们确定性执行。比如浏览器自动化、文件操作、流式处理。修改它们意味着编辑核心 Python 文件。

技能是 Markdown 文档。智能体像读指令一样读取它们，并按照文档描述的流程自主执行。关键在于：智能体可以自己编写技能。不需要改代码，不需要人去编辑配置文件。智能体看着自己成功完成了某件事，写下它是怎么做到的，然后把这份知识存下来以备后用。

智能体在完全不触碰自身源代码的情况下变得更聪明。确定性工具层保持稳定和安全，知识层持续增长。

四层记忆系统

上下文太少，智能体会做出糟糕的决策。上下文太多，你会烧掉大量 Token，延迟飙升，模型开始遗忘埋在超长提示词里的指令。Hermes 用四层记忆来解决这个问题，按智能体需要信息的紧急程度分层。

四层记忆系统分层架构图：第一层 MEMORY.md、第二层 USER.md、第三层 Session Search、第四层 External Memory Plugins

第一层：智能体个人笔记 ( MEMORY.md ) 存储环境事实、项目约定和运维经验。它被限制在大约 800 个 Token，在会话开始时直接注入系统提示词。你可以把它理解为智能体的作弊小抄。

第二层：用户画像 ( USER.md ) 维护一个关于你的模型——你的技术水平、时区、沟通风格。大约 500 个 Token。同样在启动时注入。

第三层：会话搜索 将所有历史会话的所有内容归档到一个 SQLite 数据库中。智能体按需查询，使用全文搜索结合 LLM 摘要。深度历史上下文就存放在这里。

第四层：外部记忆插件 连接到基于图的检索系统 ( Graph-based Retrieval )，如 LightRAG、Supermemory 或自定义向量存储。对于企业级使用来说，这才是真正变得严肃的地方，支持跨复杂关系图的多跳查询 ( Multi-hop Query )。

前两层使用「冻结快照 ( Frozen Snapshot )」模式：变更会立即写入磁盘，但不会修改当前活跃的系统提示词，直到下一个会话开始。这保留了语言模型的前缀缓存 ( Prefix Cache )，在长会话中保持低延迟。在对话中途修改提示词会使缓存失效，导致推理速度骤降。

还有一个值得了解的「定期提醒 ( Periodic Nudge )」机制。Hermes 运行时不会被动等你告诉它保存重要信息，而是在空闲时刻主动提示智能体评估最近的交互，并在上下文窗口被填满、较早的对话轮次被压缩掉之前提取关键事实。智能体在这次显式刷新中没有标记的事实就不会存活下来。这是一种「用或丢 ( Use-it-or-lose-it )」的记忆管理方式。

深度研究：不只是高级网络搜索

当你交给 Hermes 一个复杂的研究任务时，它首先调用一个 think_tool——一次强制的战略暂停，迫使模型在做任何事情之前先阐明一个真正的调查计划。梳理数据方向，定义范围，形成假设。只有完成这个规划阶段后，智能体才开始执行。

然后它开始并行化。

ConductResearch 工具不会只发出一个查询。它将具体的研究主题分配给独立的子智能体 ( Sub-agent )，每个子智能体都运行在自己干净的上下文窗口、隔离的终端会话和受限的工具集中。一个子智能体可能通过无头浏览器 ( Headless Browser ) 抓取监管文件，另一个查询数据库，第三个运行 Python 脚本生成统计分析。它们同时执行，将结构化 JSON 返回给主编排器 ( Orchestrator )。

并行工作完成后，智能体再次调用 think_tool。第二遍强制综合：评估返回的结果，检查缺口，判断目标是否达成。如果没有，循环以新的研究方向迭代。如果达成了，它调用 ResearchComplete 并进入报告生成阶段。预定义的深度边界防止无限递归。

对于最终报告，模块化的小报告由一个大上下文模型 ( 至少 64K Token 窗口 ) 合并为一份连贯的、带引用的文档。

安全故事：为什么这比功能更重要

这是让 OpenClaw 用户不太舒服的对比部分。

2026 年 3 月 18 日至 21 日之间，四天内 OpenClaw 出现了 9 个 CVE 漏洞，包括一个 CVSS 9.9 严重漏洞，允许认证用户提权到管理员权限。到 4 月初，安全研究人员追踪到在 63 天内发现了 138 个 CVE。大约每天 2.2 个新漏洞。

OpenClaw 供应链安全对比图：显示 ClawHub 市场恶意技能、CVE 数量等安全风险

供应链的数字更糟。安全公司 Antiy CERT 确认 ClawHub 市场中有 1,184 个恶意技能，峰值时大约占五分之一的包。SecurityScorecard 发现超过 135,000 个 OpenClaw 实例以不安全的默认配置暴露在公共互联网上。ClawHavoc ( ClawHub 破坏行动 ) 甚至不需要找漏洞，攻击者只需上传看起来很可信的技能，然后等人安装。

Hermes 采取了根本性的更保守的方法。因为智能体是基于你的特定工作流在内部生成自己的技能，它完全绕过了外部供应链攻击向量。你不是从匿名贡献者发布的公共注册中心拉取可执行代码，智能体是在你的环境中从观察到的成功经验中编写自己的运维知识。

在基础设施层面，Hermes 强制终端执行使用容器隔离，子智能体进程使用加密命名空间隔离，以及动态凭证轮换。它在将任何外部数据注入系统提示词之前扫描提示注入 ( Prompt Injection )。OpenClaw 的补丁响应速度一直很快，通常是当天修复，这个项目也不是从根本上坏了。但架构层面的攻击面差异是真实存在的。

把 Hermes 跑起来：搭建指南

你需要安装 Git。就这些。安装程序会处理 Python 3.11+、Node.js v22、ripgrep 和 ffmpeg。支持 Linux、macOS、WSL2 和 Android ( 通过 Termux )。不支持原生 Windows。

步骤 1：安装

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

安装程序检测你的操作系统并自动配置依赖。Python 通过 uv 运行，这是一个基于 Rust 的包管理器，无需 sudo 即可创建隔离的虚拟环境。

步骤 2：运行设置

hermes setup

交互式向导会引导你完成模型选择和初始配置。如果你是从 OpenClaw 迁移过来的，向导会自动检测 ~/.openclaw 并提供迁移你的设置、记忆、技能和 API 密钥的选项。

步骤 3：选择模型

hermes model

Hermes 与模型无关 ( Model-agnostic )。你可以连接 Anthropic、OpenAI、DeepSeek 或 OpenRouter ( 通过单一端点访问 400+ 模型 )。对于深度研究任务，你需要一个至少有 64K 上下文 Token 的模型。

如果你想要零 API 费用和完全的数据隐私，通过 Ollama 拉取一个本地模型：

ollama pull qwen2.5-coder:32b

然后将 Hermes 指向你的本地端点：http://localhost:11434/v1。完全自主，没有外部 API 调用，数据不会离开你的机器。

步骤 4：设置网关（可选但很强大）

hermes gateway setup

将 Hermes 绑定到 Telegram、Discord、Slack、WhatsApp 或 Signal。网关作为持久的后台服务运行，所以你可以从手机给智能体发消息，同时它在服务器上跑重度任务。对于 Telegram，通过 BotFather 注册一个机器人，通过 @userinfobot 获取你的 User ID，然后把两者填入配置。

一个注意事项：消息接口用于监控和异步更新很好用，但它们本质上是线性的。对于深度协作工作 ( 比如复杂的代码库变更 )，消息线程很快就会成为瓶颈。用 CLI 或专门的工作区来做这类交互。

步骤 5：容器化你的执行（一定要做）

hermes config set terminal.backend docker

这确保所有智能体生成的代码都在隔离容器内运行。如果出了问题，你的主机系统不受影响。

步骤 6：让它学习

从简单的、可重复的任务开始：周报、PR 审查、API 数据处理、研究汇总。关注技能目录。成功完成后，你会看到新的 .md 文件出现——那是智能体自己编写的操作手册。几周之后，原本需要几分钟的任务开始只需要几秒。

Hermes 的不足之处

本地推理的硬件现实。 文章自己建议通过 Ollama 拉取 qwen2.5-coder:32b 做免费本地推理，这值得打个现实补丁。用 32B 模型跑主编排器没问题。但前面描述的深度研究并行化，多个子智能体各自需要自己的活跃推理线程和干净的上下文窗口，这就需要严肃的 GPU 资源了。更现实的本地设置是用一个较小的量化模型 ( Quantized Model ) 做子智能体路由和数据提取，把 32B 模型留给主编排器和最终综合。如果你只有一块消费级 GPU，并行研究工作流会成为严重瓶颈。

自编技能是脆弱的。 内部技能系统绕过了 OpenClaw 的供应链风险，但 Markdown 操作手册在世界发生变化时就会失效。如果一个遗留 API 更新了认证流程，或者一个网站重新设计了 DOM，智能体记住的流程就会失败。不像带有可视化错误处理路径的确定性工作流工具，Hermes 必须先失败、重新评估，然后从头重写技能。学习循环可以处理这种情况，但不是即时的。

除非你真的需要，否则跳过第四层记忆。 文章提到了 LightRAG 和 Supermemory 集成，但对于大多数单服务器设置，SQLite 全文搜索 ( 第三层 ) 提供了速度和召回率的最佳平衡。将扁平的 MEMORY.md 文件与重型外部向量数据库同步会引入延迟和状态冲突问题，除非你在跑企业级多智能体工作流，否则不值得这个开销。

设置复杂度是真实存在的。 OpenClaw 能让你从安装到可用的智能体更快。如果你需要 50+ 平台集成和消费级简洁性，OpenClaw 仍然是更易用的选择。

这个框架才两个月大。 0.8.0 版本于 2026 年 4 月 8 日发布，开发速度很猛。但项目仍在成熟中，粗糙的地方在所难免。

自我改进是渐进的，不是神奇的。 40% 的基准测试提升来自持续数周的使用，不是一次快速演示。别指望一夜之间脱胎换骨。

Hermes Agent 随使用时间增长的价值金字塔：从初始 VPS 到第三个月复合价值，再到一年后的无界增长

更大的图景

AI 智能体领域正在分成两个阵营。连接性 ( OpenClaw 的赌注：连接一切，无处不在 ) 对抗认知 ( Hermes 的赌注：随时间变聪明 )。两者在不同用例下都成立。有些团队两个都在用，OpenClaw 做接入和路由，Hermes 做深度分析工作。

对于任何反复运行相同复杂工作流的人来说，一个真正会学习的智能体的累积优势很难忽视。安装只需要五分钟。学习循环会处理剩下的事情。

在云栈社区，你可以找到更多关于 Hermes Agent 及其他开源智能体的实战讨论和最佳实践。

推荐书单

《大模型RAG生成式AI开发：使用LlamaIndex、Deep Lake和 Pinecone》

《大模型RAG生成式AI开发：使用LlamaIndex、DeepLake和Pinecone》深入剖析RAG，详解多模态AI流水线的设计、管理与把控。RAG通过将输出与可追溯的源文档关联，提升了输出的准确性与上下文相关性，为海量信息管理提供了一种动态思路。书中不仅展示RAG框架的搭建方法，介绍关于向量存储、切块、索引及排序等方面的实用知识，还传授优化项目性能、加深对数据理解的技巧，例如，运用自适应RAG与人类反馈来提高检索准确性，平衡RAG与微调的关系，实施动态RAG以增强实时决策能力，以及借助知识图谱可视化复杂数据。读者可亲自上手，实践LlamaIndex和DeepLake等框架、Pinecone和Chroma等向量数据库，以及来自HuggingFace和OpenAI的模型。学完本书，读者将掌握智能解决方案的实施技能，在生产、客户服务等各类项目中稳占竞争优势。

扩展RAG流水线，高效处理大型数据集。
运用先进技术，最大幅度减少大模型幻觉，确保回复精准无误。
实施索引技术，借助可追溯且透明的输出，提升AI准确性。
跨领域定制与扩展RAG生成式AI系统。
探索利用DeepLake和Pinecone实现高效数据检索的方法。
基于真实数据，构建并掌控稳健的生成式AI系统。
融合文本与图像数据，丰富AI回复信息。

【5折促销中】购买链接：https://item.jd.com/15305080.html

《大模型RAG生成式AI开发》书籍封面，作者丹尼斯·罗斯曼，清华大学出版社

上一篇：Moxt实战：和乔布斯AI搭档，从0打造文章精炼卡片工具
下一篇：xCAT轻量批量运维：免装系统用psh/pscp实现集群管理

Hermes Agent, OpenClaw, 记忆系统, 技能框架, 自托管