找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2562

积分

0

好友

342

主题
发表于 1 小时前 | 查看: 2| 回复: 0

AI概念层级结构示意图:从大模型到OpenClaw

你可能经常听到这些词:大模型、Agent、Prompt、Token、MCP、Skill、多智能体……感觉都懂,但要跟人解释清楚它们之间的关系,又觉得无从说起。

今天,我们尝试用一个“公司组织架构”的比喻,把这些概念串联起来。每个概念都会配图说明,看完之后,你脑子里会形成一张清晰的图谱,明白谁是谁的基础,谁为谁提供工具,谁在幕后负责调度。

大模型(LLM)—— 公司里最聪明的那个人

大模型LLM的核心能力示意图

先从最底层说起。

大模型,全称 Large Language Model(大型语言模型),是目前所有 AI 应用的“大脑”。它通过阅读互联网上几乎所有的公开文本——网页、书籍、论文、代码、论坛帖子——学会了理解和生成人类语言。

你平时听到的产品名,本质上都基于大模型:

产品名 背后的大模型 开发公司
ChatGPT GPT-4 / GPT-5 OpenAI
Claude Claude Sonnet / Opus Anthropic
Gemini Gemini Pro / Ultra Google
通义千问 Qwen 阿里巴巴
DeepSeek DeepSeek-V3 深度求索
文心一言 文心大模型 百度
豆包 云雀大模型 字节跳动

大模型擅长什么?理解语言、生成文字、推理问题、写代码、翻译、总结归纳。你问它问题,它能回答;你让它写代码,它能写;你让它翻译,它能翻。

但它有个致命短板:它只能动嘴,不能动手

它不能帮你发邮件,不能帮你操作浏览器,不能帮你运行代码、不能订外卖、不能发朋友圈。它就像一个被锁在房间里的天才顾问——你只能通过门缝跟它对话,它没法走出来帮你干活。

而且它还有“失忆”的问题——每次对话结束后,它就忘了之前聊过什么(除非你再次把上下文喂给它)。

这时候,我们需要引入下一个概念。想要深入探索大模型的应用生态,可以关注云栈社区中关于人工智能的讨论。

Prompt —— 你跟大模型说话的方式

Prompt好坏对比示意图

Prompt,通俗说就是你给大模型的指令,也有人叫它“提示词”。

“帮我写一首关于春天的诗”——这是一个 Prompt。
“用 Python 写一个快速排序算法,要求时间复杂度 O(n log n)”——这也是一个 Prompt。
“你是一个资深的健身教练,请根据我的身高体重制定一份增肌计划”——这还是一个 Prompt。

Prompt 写得好不好,直接决定大模型给你什么质量的回答。举两个极端的例子:

差的 Prompt:

写篇文章

大模型不知道你要写什么主题、什么风格、多长、给谁看,只能给你一篇万能废话。

好的 Prompt:

你是一个科技自媒体编辑,擅长用大白话讲技术。请写一篇 1500 字左右的文章,主题是“为什么 2026 年 AI Agent 会爆发”,目标读者是不懂技术的普通用户。要求:用具体案例说明,不要堆术语,结尾给出 3 个普通人可以用 AI Agent 做的事。

这个 Prompt 明确了角色、主题、字数、风格、读者和结构要求,大模型就能给你一篇质量高得多的文章。

Prompt Engineering(提示词工程)就是研究“怎么写出好 Prompt”的学问。它有几个常用技巧:

  • 角色设定:告诉模型“你是一个 XX 专家”
  • 给出示例:给它一两个参考样本,让它照着写
  • 分步指引:把复杂任务拆成步骤,一步步引导
  • 约束条件:明确字数、格式、风格、禁止事项

简单记:Prompt 就是你跟大模型的沟通语言,说得好,它就干得好。这是所有人都能学会的最基础的 AI 技能。

Token —— 大模型的“计费单位”

Token中文英文切分与计费示意图

Token 是大模型处理文字的最小单位

它不是字,也不是词,而是介于两者之间的一种切分。具体规则有点复杂,但你可以大致这样理解:

语言 1 个 Token ≈
中文 0.5-1 个汉字
英文 0.75 个单词(常见词 1 个 Token,长词可能拆成 2-3 个)
代码 差不多 4 个字符

为什么你要关心这个?两个原因:

第一,大模型按 Token 收费。

为什么不直接按“字数”或“次数”收费?因为大模型内部不是按“字”来处理文本的,它是按 Token 来理解和生成。同一个意思,中文和英文消耗的 Token 数量不同,所以用 Token 作为计费单位是最准确的——用了多少算力,就收多少钱。

你发一段 1000 字的 Prompt,模型回复 2000 字,这次对话大约消耗 3000-4000 个 Token。GPT-4 级别的模型,每百万 Token 输入大约 $2-3,输出约$8-15。

你可能注意到了:输出比输入贵好几倍,为什么?

这里涉及到一个关键的底层原理:输入可以并行计算,输出只能串行计算。

输入(你发给模型的文本)是已知的,模型可以同时处理所有 Token,就像老师批改试卷——可以同时看很多份卷子。GPU 的并行计算能力在这种场景下能充分利用,效率很高,成本就低。

输出(模型生成的文本)则完全不同。模型必须一个一个 Token 地预测——先预测第一个,再基于第一个预测第二个,再基于前两个预测第三个……每一步都依赖上一步的结果,无法同时进行。就像排队买饭,必须一个人买完才能轮到下一个。GPU 在这种串行模式下大量算力是闲置的,利用率低,所以成本就高。

简单类比:输入像“看书”(一目十行,并行处理),输出像“写书”(一个字一个字往外蹦,串行生成)。写作比阅读累多了,对 AI 也是一样——而且“写作”还特别浪费 GPU 的算力。

GPU并行计算与串行生成成本对比图

所以写 Prompt 有个技巧:能精简就精简,省 Token 就是省钱

第二,每个模型有上下文窗口上限。

上下文窗口(Context Window)就是模型能一次性“看到”的最大 Token 数。你可以把它理解为“短时记忆容量”。

模型 上下文窗口 大约能容纳
GPT-4o 128K Token ~6 万字中文
Claude 3.5 Sonnet 200K Token ~10 万字中文
Gemini 1.5 Pro 1M Token ~50 万字中文

如果你的对话内容超过这个上限,模型就会“忘记”最早聊的内容。这就是为什么有时候聊着聊着,AI 就忘了前面说过的话。

Agent —— 让大模型长出“手和脚”

智能体Agent行动力示意图

回到之前的问题:大模型只能动嘴,不能动手。

Agent(智能体)就是解决这个问题的。Agent = 大模型 + 行动力

怎么理解?如果说大模型是一个只会坐在办公室里出主意的顾问,那 Agent 就是这个顾问配了一台电脑、一个手机、一辆车——它可以上网搜索、可以操作软件、可以调用 API、可以执行代码、可以读写文件。

Agent 和普通 AI 聊天的本质区别是自主决策

对比维度 普通聊天 Agent
交互方式 你问一句,它答一句 你给个目标,它自己规划步骤
能否使用工具 ❌ 只能生成文字 ✅ 可以搜索、执行代码、调用 API
多步任务 需要你一步步指挥 自己拆解任务、逐步执行
出错处理 等你纠正 自己发现错误、尝试换方案

举个例子。同样是“帮我调研 OpenAI 和 Anthropic 的最新模型定价”:

普通聊天模式: 你得一步步来——先问 OpenAI 定价,再问 Anthropic 定价,最后让它做对比表。每一步都要你发指令。而且 AI 只能靠“记忆”回答,数据可能已经过时了。

Agent 模式: 你只说一句话“帮我调研两个模型的最新定价”,Agent 自己去搜索官网、提取数据、整理对比表、发现矛盾还会反复确认。五六步全自主完成。

这就是 Agent 的价值:你说“做什么”,它自己决定“怎么做”。

MCP —— 给 Agent 发工具的标准接口

MCP协议作为AI通用接口示意图

Agent 能干活了,但它需要工具。搜索需要搜索引擎,发邮件需要邮件 API,操作文件需要文件系统,查天气需要天气 API。

问题来了:每个工具的接入方式都不一样。A 工具用 REST API,B 工具用 GraphQL,C 工具用 SDK……Agent 想用新工具就得专门写对接代码,太麻烦了。

MCP(Model Context Protocol,模型上下文协议)就是来解决这个问题的。 你可以把它理解为AI 世界的 USB 接口

还记得 USB 出现之前的混乱吗?键盘是 PS/2 圆口、打印机是并口、鼠标是串口、U 盘是……没有统一接口。每个设备都有自己的专属接口,换个设备就得换个转接头。

USB 统一了这些接口——一个口插什么都行:键盘、鼠标、U 盘、打印机、摄像头,统统一个标准。

MCP 做的是一样的事。它定义了一套标准协议,让任何工具只要按这个协议封装好(称为 MCP Server),Agent 就能直接用——不需要为每个工具单独写代码。

目前已经有的 MCP 工具包括:

MCP Server 功能
filesystem 读写本地文件
brave-search 网络搜索
github 操作 GitHub 仓库
postgres 查询数据库
google-maps 地图和导航
slack 发送 Slack 消息

MCP 由 Anthropic(Claude 的公司)在 2024 年底提出并开源,目前已经被广泛采纳。越来越多的工具和平台在适配 MCP,它正在成为 AI Agent 连接外部工具的事实标准。

一句话理解:MCP 让 Agent 从“只会用几个固定工具”变成“能用任何工具”,就像 USB 让电脑从“只有几个专属接口”变成“什么设备都能插”。

Skill —— Agent 的“技能包”

Skill技能包组成示意图

MCP 给了 Agent 标准化的工具接口,但光有工具还不够。给你一把锤子和一堆钉子,你不一定能做出一个书架——你还需要一份详细的操作指南。

Skill(技能)就是这份操作指南,它是比 MCP 更高一层的封装。

一个 Skill 里面包含的东西:

组成部分 说明
触发条件 什么情况下该用这个技能(比如“用户要求写文章”)
执行流程 具体分几步、每步做什么
使用工具 哪些 MCP 工具会被用到
输出格式 最终结果应该长什么样
注意事项 哪些坑要避免

打个比方:

  • 大模型 = 一个聪明但什么工具都没有的人
  • MCP = 给这个人发了一套标准化的工具(锤子、锯子、尺子)
  • Skill = 一份“如何从零搭建一个书架”的完整教程

有了 Skill,Agent 不用每次都从零思考怎么完成任务。它只需要匹配到合适的 Skill,然后按照 Skill 里定义的流程执行就行。

在 OpenClaw 这样的平台上,Skill 是最核心的概念。每个 Skill 就是一个预制好的能力模块:

  • article-writer Skill:负责写公众号文章
  • tweet-screenshot-to-doc Skill:负责截推文图
  • video-script-creator Skill:负责写短视频脚本
  • weather Skill:负责查天气

Agent 接到任务后,会根据任务内容自动选择合适的 Skill 来执行,不需要你手动指定。

总结一下到目前为止的层级关系:大模型提供智力 → Agent 提供行动力 → MCP 提供标准化的工具接口 → Skill 提供打包好的完整技能。层层叠加,缺一不可。

Claude Code —— 从程序员工具进化成的 AI 操作系统

Claude Code编程Agent示意图

Claude Code 是 Anthropic 推出的一款 AI 工具。它最早确实是一个专注于编程的 Agent——帮程序员写代码、修 Bug、跑测试。但随着发展,它已经远远不止是编程工具了,正在变成一个面向所有人的通用 AI 操作系统。

它是怎么进化过来的?

第一代:编程 Agent

Claude Code 最初的设计目标很明确——做一个比 Copilot 更强的编程助手。它能理解整个项目、自主修改代码、运行测试、提交 Git。你可以把它理解为一个驻扎在你电脑里的程序员同事。

第二代:通用 Agent

但很快大家发现,Claude Code 的能力边界远不止编程。它能操作文件系统、搜索网页、读写文档、管理项目——本质上它是一个能操作你电脑的通用 Agent。你不需要会写代码,也能用它来整理文件、分析数据、自动化日常任务。

第三代:多 Agent 协作平台

现在 Claude Code 已经支持三种工作模式:

模式 说明 适合场景
单 Agent 一个 Agent 独立完成任务 简单任务,一个人就能搞定
多 Agent 多个 Agent 并行处理子任务 复杂任务需要分工
Agent Teams 多个 Agent 组成团队协作 大型项目,需要紧密配合

这意味着它不只是“一个能干的员工”了,它更像是一个能组建和管理整个团队的项目管理系统

Claude Code vs OpenClaw,什么关系?

说实话,它们本质上做的事越来越像了。

OpenClaw 之所以火,核心原因是它最早打通了各种 IM 通道——微信、Discord、飞书、Telegram 都能接入,还支持定时任务、记忆系统、Skill 体系。你可以把它理解为一个“AI 管家”,帮你把 AI 能力分发到生活的方方面面。

Claude Code 原本是给程序员用的,但最近更新非常猛——也在快速支持多通道通信、定时任务、多 Agent 协作。Anthropic 明显在把它往“通用 AI 平台”的方向推。

目前来看:

对比维度 Claude Code OpenClaw
核心定位 终端 AI 平台,偏技术 全平台 AI 调度系统,偏运营
擅长领域 编程、项目开发、文件操作 内容创作、自媒体、消息分发
消息渠道 正在快速扩展中 微信、Discord、飞书等已成熟
定时任务 已支持 已支持
多 Agent 单 Agent + 多 Agent + Teams 单 Agent + 多智能体
工具生态 MCP 协议+Skill体系 MCP 协议 + Skill 体系
目标用户 开发者为主,逐步破圈 内容创作者、自媒体运营者

我的判断:这两个产品最终会演变成非常相似的东西——都是“AI 操作系统”。短期内 Claude Code 更受开发者欢迎,OpenClaw 更受内容创作者青睐。但长远看,Claude Code 背靠 Anthropic 的模型优势和资源投入,我个人坚信它有可能一统天下——当然,这只是个人观点,AI 这个行业变化太快,谁也说不准。

普通人怎么用 Claude Code?

不需要会编程。举几个实际场景:

提示词参考:

帮我把 ~/Downloads 里所有的 PDF 文件按日期重命名,并移动到 ~/Documents/归档/ 对应年月文件夹下。

分析这个 CSV 文件,告诉我哪个月销售额最高,生成一张趋势图。

帮我把这个 Markdown 文件转成 HTML,套上这个 CSS 模板。

Claude Code 本质上就是一个能操作你电脑的 Agent,编程只是它最擅长的事之一。随着 AI 工具的发展,“写代码”这件事会越来越像“打字”一样,变成一个基础技能——而 Claude Code 就是帮你完成这件事的工具。

OpenClaw —— 管理多个 Agent 的“总指挥”

OpenClaw平台系统架构图

如果说 Agent 是一个个能干的员工,Skill 是他们的技能培训,MCP 是他们使用的标准工具,那 OpenClaw 就是这个公司的操作系统——管人、管工具、管流程、管一切。

OpenClaw 具体做了什么?

1. 管理 Agent 的生命周期

你可以同时运行多个 Agent——一个搜集信息,一个写文章,一个做图,一个发布。OpenClaw 负责启动、监控、协调这些 Agent,让它们各司其职、互不干扰。

2. 统一管理 Skill 库

各种能力模块(写文章、截图、发微博、查天气……)都以 Skill 的形式存在 OpenClaw 里。Agent 需要什么能力就调用什么 Skill,不需要重复开发。

3. 连接所有消息渠道

微信公众号、Discord、飞书、Telegram、Slack……你不用分别登录各个平台。OpenClaw 统一对接所有渠道,Agent 产出的内容可以直接分发到任何地方。

4. 记忆系统

这是 OpenClaw 区别于普通 AI 工具的关键。它给 Agent 配了“长期记忆”——Agent 知道你之前聊过什么、你的偏好是什么、你的项目进展到哪了。下次对话不用从头解释,它记得。

5. 定时任务(Cron)

像闹钟一样定时触发任务。比如每天早上 7 点自动搜集 AI 资讯生成日报,每天 8 点自动写公众号文章推到草稿箱,完全不需要人工干预。

6. 安全管控

Agent 拥有强大的行动力,但也意味着风险。OpenClaw 提供了多层安全机制——危险操作需要审批、文件操作有沙箱保护、外部发送需要确认。确保 Agent 能干活但不乱来。

打个比方总结:

概念 公司类比
大模型 员工的大脑
Agent 会干活的员工
MCP 标准化的办公工具
Skill 员工的技能培训手册
OpenClaw 公司的管理系统(OA + HR + 项目管理)

多智能体 —— 团队协作

多智能体团队协作示意图

一个 Agent 能干很多事,但有些任务太复杂、涉及领域太多,一个 Agent 搞不定或者效率太低。

多智能体(Multi-Agent)就是让多个 Agent 组成团队,分工协作

举个真实的例子。在 OpenClaw 的实际使用中,每天自动发一篇 AI 资讯文章到公众号,背后是这样分工的:

Agent 职责 使用的 Skill
🕵️ 星哨情报员 从 X/Twitter、新闻网站搜集 AI 资讯 xingshao-scout
✍️ 墨生编辑 从情报中筛选选题,撰写文章 mosheng-writer
📸 美工 生成封面图和配图 nano-banana-pro
🎬 镜言编导 写视频口播脚本 jingyan-script
👔 主编 审核、协调、最终确认 article-writer
📡 发布员 推送到微信公众号草稿箱 wechat-article-publisher

每天早上 7 点,星哨情报员自动开始工作,搜集完情报后通知墨生编辑开始写文章,同时美工准备配图,写完后主编审核,最后发布员推送到草稿箱。

整个过程全自动,不需要人工干预——除非主编审核发现问题,才会通知人来确认。

多智能体的核心思想就是专业分工。就像公司里不可能让一个人同时做销售、设计、编程、财务一样,每个 Agent 专注于自己最擅长的领域,通过消息传递进行协作,效率比一个“全能 Agent”高得多。

  • 大模型 = 员工的大脑(智商很高,但需要工具和方法)
  • Token = 大脑的“思考单位”(用多少收多少钱)
  • Prompt = 你给员工下的指令(说清楚才能干好)
  • Agent = 能自己跑腿干活的员工(不只是坐那动嘴)
  • MCP = 标准化的工具接口(就像 USB,统一插拔)
  • Skill = 完整的技能培训包(不只是给工具,还教怎么用)
  • Claude Code = 从编程 Agent 进化为通用 AI 平台(跟 OpenClaw 越来越像)
  • OpenClaw = 公司的操作系统(管理所有员工、工具、流程)
  • 多智能体 = 团队协作(多个专家组成项目组,分工干活)

参考链接





上一篇:蔡崇信掌舵蓝池资本完成70亿募资,AI与SaaS成核心投向,从“家办”走向平台
下一篇:AI原生游戏《AI2U》玩法解析:与病娇AI女友的“说服”逃脱战,对话开发者
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-30 04:59 , Processed in 0.661010 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表