找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2836

积分

0

好友

380

主题
发表于 5 天前 | 查看: 21| 回复: 0

最近和同事朋友聊到 AI,有些人聊得特别投入,张口 Agent,闭口 Skill,逻辑听起来很完备,仿佛已经置身于技术浪潮的前沿。

而你呢?可能只能点头微笑,心里却在想:“他说的每个词我好像都听过,好像懂了,但又说不太清楚”。

如果你有过这种感觉,请放心,问题可能不在你,而在于对方讲解概念的方式。他们常常会把同一套系统里的不同组成部分,当成彼此独立的全新技术来讲。

于是你接收到的,往往是一堆零散的概念碎片,而不是一张完整的地图。

今天这篇文章的目标很简单:帮你在大脑中,真正构建出一套关于 AI 系统的完整认知框架。

为了让这一切变得更易于理解,我们不妨借助一个简单但有效的类比:将整个 AI 系统想象成一家公司。在这家公司里,有负责思考的老板,有执行具体工作的员工,有辅助工作的工具,有规范流程的制度,还有统筹全局的调度系统。不同的 AI 概念,恰好对应着这些不同的角色。一旦建立这种整体视角,原本分散的术语就会自然归位。

一张将AI系统类比为公司结构的示意图

一、LLM:AI系统的地基

任何复杂的系统都需要一个坚实的基础层。在当前的人工智能体系中,这一基础层就是大语言模型(LLM)。像我们熟知的 ChatGPT、Claude 等产品,本质上都是基于 LLM 构建的应用。

大语言模型的能力非常强大,它拥有广泛的知识储备和强大的语言生成能力,可以进行问答、创作、信息分析,甚至完成一定程度的逻辑推理。然而,它也存在一个容易被忽视的根本性限制:它只能生成内容,却无法执行动作

换句话说,它不能主动访问互联网、操作你的本地文件,或者调用外部系统 API。你可以把它想象成一位知识渊博但被限制在封闭环境中的专家,拥有卓越的思考能力,却缺乏亲手操作世界的能力。

二、大模型的“流量计费”:Token

与大模型紧密相关的,是另一个经常被低估的重要概念——Token。很多初学者会简单地将 Token 等同于“字数”,但实际上,它是模型处理文本时采用的基本计算单位。更重要的是,Token 在整个系统中承担着三重关键作用:

  1. 成本控制:通过 API 调用模型服务时,输入和输出的内容都会被拆解为 Token 并据此计费。因此,对 Token 数量的管理,直接就是对成本的管理。
  2. 上下文长度:模型在一次交互中能够“记住”或处理的内容是有限的,这个限制就是以 Token 数量来衡量的。当输入内容超过这个上限,较早的信息就会被“遗忘”。
  3. 任务复杂度:更复杂的问题通常需要更多的上下文信息来支持推理过程。上下文空间的容量,直接制约了模型能处理问题的规模。

因此,从系统角度看,大模型定义了能力的上限,而 Token 则在资源层面,规定了这种能力可以被怎样使用。


三、从单次表达到可复用能力:Prompt 与 Skill

有了大模型之后,人们最直接的互动方式就是用语言和它交流,这就引出了 Prompt(提示词) 的概念。Prompt 就是你给模型的指令,它决定了模型如何理解你的意图并给出回应。

实践中,人们发展出了“提示词工程”,通过优化表达方式来获取更理想的输出。这确实有效,但也存在一个明显的局限:Prompt 通常是临时性的。每一次对话,几乎都是一次新的开始。即使你调试出了一个完美的提示词,在新对话中也需要重新输入和构造。

当这种使用频率变高时,重复劳动的问题就凸显出来。于是,Skill(技能) 的概念应运而生。Skill 并不是增强模型本身,而是对使用方式的升级。它将那些经过反复验证、行之有效的 Prompt 模板和经验逻辑进行封装,变成可以直接调用的标准化能力。

例如,如果你需要经常写周报,就可以把相关的提示逻辑(结构、要点、语言风格)整理成一个固定的 Skill。下次你只需要输入“本周工作内容”等关键数据,系统就能自动生成格式规范的周报。与其说 Skill 提升了模型能力,不如说它降低了使用成本,并实现了经验的沉淀

从这个角度看,Prompt 代表一次性的交互,而 Skill 则代表可复用的能力资产。这背后是从“单纯使用工具”到“开始构建系统”的思维转变。


四、连接外部世界的关键:MCP 协议

到目前为止,我们讨论的系统还存在一个关键缺口:无论是大模型本身,还是基于 Skill 封装的能力,本质上都局限于“生成信息”,而无法直接影响外部世界。这让 AI 在很多需要动手操作的实际场景中显得力不从心。

MCP(Model Context Protocol) 正是为了解决这个问题而诞生的。虽然名字听起来有点抽象,但其核心思想并不复杂:它是一个标准化接口,用于连接 AI 模型与外部工具或系统。

我们可以用一个常见的硬件比喻来理解它:在硬件领域,USB-C 接口统一了各种设备之间的连接标准。MCP 在 AI 领域扮演着类似的角色。它为工具开发者和模型开发者建立了一套通用的交互规范,从而避免了“一个工具要为每个模型单独适配一次”的重复劳动。

在没有统一标准之前,每增加一个外部工具,系统复杂度就急剧上升。而有了 MCP 之后,工具开发者只需按照协议规范开发一次,就能被所有兼容此协议的模型调用;模型也只需实现一次协议支持,就能接入海量工具。这种结构优化,极大地增强了 AI 系统的可扩展性。

更重要的是,它为模型赋予了“行动能力”。通过 MCP,AI 可以去查询数据库、调用 Web API、读写文件系统,甚至控制智能设备。至此,AI 模型才开始从一个纯粹的语言生成器,转变为一个能与现实世界交互的智能体。


五、从工具到执行者:Agent 的出现

当大模型具备了调用工具(通过 MCP)的能力,并且可以复用封装好的经验(Skill)时,一个更强大的形态便自然浮现——这就是 Agent(智能体)

Agent 本身并不是一个更强大的模型,而是一种更完整的系统架构。它将大模型(大脑)、Skill(经验包)、MCP(手和脚)、记忆机制以及任务规划能力整合在一起,使 AI 能够围绕一个明确的目标,自主执行一系列操作。

这里的关键转变在于:从“被动响应”转向“主动执行”。传统的大模型接到任务时,通常只提供一个答案或解决思路,然后等待你的下一步指令。而 Agent 则能够自己将任务拆解成多个步骤,并逐一调用工具去完成。

举个例子,面对“帮我分析上周的销售数据”这个任务,普通模型可能会回答“请把数据发给我分析”。而一个数据分析 Agent 则可以主动通过 MCP 连接数据库,取出数据,调用分析 Skill 进行处理,最后生成一份可视化报告。整个过程不再依赖你一步步地发号施令,而是在系统内部自主完成。

因此,Agent 的核心价值并非智能程度本身的飞跃,而是执行能力的建立。它标志着 AI 从“辅助人的工具”向“能独立完成任务的自动化执行者”的转变。

一张对比MCP和Agent功能的示意图


六、复杂任务的组织方式:多智能体协作

当任务变得越来越复杂时,单个 Agent 的能力也会遇到瓶颈。这不是因为模型不够聪明,而是因为复杂问题本身就需要分工与合作。于是,多智能体(Multi-Agent) 系统成为了主流的解决方案。

在一个多智能体系统中,不同的 Agent 被赋予不同的专业职责。例如,可以有一个“规划 Agent”负责分解任务,一个“数据 Agent”专门处理数据,一个“写作 Agent”生成报告,还有一个“审核 Agent”检查质量。这非常像现实世界中的团队协作。

这种架构的优势很明显:

  1. 效率提升:通过任务拆分,不同的子任务可以并行执行,显著提高整体效率。
  2. 容错性强:系统具备更强的鲁棒性。即使某个环节的 Agent 出错,也可以通过其他 Agent 的反馈或系统的调度机制进行修正,避免整个流程崩溃。

所以,多智能体不是对单个 Agent 的简单叠加,而是一种组织方式的升级。它使得 AI 系统能够处理更复杂、更贴近真实业务场景的链条式任务。


七、系统调度:从零件到运转的机器

当系统中同时存在多个 Agent、多个 Skill 以及多种工具接口时,一个新问题自然产生:如何统一管理和调度这些资源?

在实际工程中,这一层通常由专门的平台或框架来承担。例如,OpenClaw 就属于这一类调度系统。它负责协调整个任务的执行流程:选择合适的 Agent、调用对应的 Skill、处理执行中出现的异常、控制资源(如 Token)的使用情况等等。

同时,也存在一些针对特定领域深度优化的专用 Agent,比如 Claude Code,它专注于代码相关的任务,能直接在 IDE 中理解上下文并执行操作。这类工具就像是“专业领域的资深员工”,在其擅长领域内效率极高。

当所有这些组件——通用模型、专用 Agent、各种 Skill 和工具——都被一个统一的调度系统管理起来时,原本零散的能力就汇聚成了一条完整的自动化执行链路,足以支撑真实业务场景中的复杂需求。


八、回到整体:一条完整的任务执行路径

现在,让我们把上面所有的概念串联起来,看看一个用户任务是如何被完整执行的:

  1. 输入与表达:用户提出需求,通过 Prompt(或自然语言)进行表达。
  2. 任务分解与调度:调度系统(如 OpenClaw)接收任务,进行分析和拆解,并将其分配给最合适的 Agent(或多个 Agent)。
  3. 能力执行:被选中的 Agent 根据任务需要,调用自己已掌握的 Skill(经验包),并通过 MCP 协议接口去访问所需的外部工具或数据。
  4. 协同工作(如需要):在复杂场景下,多个 Agent 各司其职,协同工作,共同推进任务。
  5. 结果整合与返回:各个部分的产出被整合、校验,最终形成一个完整的结果返回给用户。

在这一整个流程中:

  • 大模型提供基础的认知与生成能力。
  • Token 在资源层面控制着成本和上下文边界。
  • Prompt 是任务输入的起点。
  • Skill 将反复验证的经验固化下来,实现复用。
  • MCP 是连接数字世界与物理世界的“手和脚”。
  • Agent 是具备自主规划与执行能力的“员工”。
  • 多智能体 是应对复杂任务的“项目团队”。
  • 调度系统 则是保证整个“公司”稳定、高效运转的“管理层”。

一张展示多智能体系统完整工作流程的示意图

结语

从整体发展趋势来看,当前 AI 领域的焦点已经逐渐从单一模型能力的“军备竞赛”,转向了整体系统能力的构建。真正拉开应用差距的,往往不再是谁能写出更精妙的提示词,而是谁能够将这些不同的组件(LLM、Agent、工具、协议)有机地组织起来,形成一套稳定、可复用、可扩展的智能系统。

当你真正理解了这些概念之间的层级和关联关系,再听到新的 AI 技术名词时,就不会感到混乱。因为你可以迅速将它定位到这张“系统地图”的某一层,并理解它要解决的具体问题是什么。

这才是学习 AI 相关技术最重要的一步:不是去记忆更多的孤立术语,而是在脑中建立一张清晰的、结构化的认知地图。

希望这篇梳理能帮你拨开迷雾。如果你想深入探讨某个具体技术或分享你的见解,欢迎到专业的 云栈社区 与更多开发者交流碰撞。




上一篇:MySQL数据库设计:为何应避免使用NULL默认值及替代方案
下一篇:北大开源GNN小模型,代码Bug定位任务上性能超越千亿参数LLM
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-7 21:39 , Processed in 0.585587 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表