
(编者注:技术领域的新概念层出不穷,有时就像一场混战,让人摸不清头绪。本文旨在为你厘清AI应用中的几个关键“角色”。)
一、AI技术术语的“祛魅”
当前AI浪潮汹涌,但也伴随着大量让人似懂非懂的技术名词。就像鲁迅先生笔下的人物,时不时会冒出句“洋话”。无论对技术人员还是普通用户而言,诸如Agent、MCP、Skills、LangChain、Workflow这些术语,都披着一层“高大上”的神秘面纱。它们之间互有关联,却又容易混淆。
本文将从技术与普通应用两个视角,对这些概念进行拆解分析,旨在拨开迷雾,还原其本质。一切的核心,都离不开大模型。正是各类大模型的突破性发展,奠定了当前AI火爆的基石。所有后续衍生的术语和架构,都是围绕如何更好地利用大模型这一核心而展开的。
二、Agent:你的AI“大管家”
Agent,直译就是代理或代理人。仅从字面就很好理解:它扮演着用户与底层大模型之间的“中间人”角色。你可以将其视作大模型的“代言人”,为用户服务;反过来,也可以理解为用户的“代言人”,去指挥和协调大模型。
在AI大模型火爆之前,Agent的概念就已存在,那时它更像是一个由开发者制定固定规则、让AI按规则执行任务的工具。但随着大模型的兴起,Agent的涵义得到了极大扩展。普通用户不具备编写复杂规则的能力,于是,推断规则、制定计划这部分工作,就可以交给Agent自身来完成,再由它驱动大模型执行具体操作。
简而言之,可以把Agent想象成一个“大管家”。它接收“领导”(用户)的模糊指令,然后分解任务、协调资源(如调用各种工具或技能),最后将结果整理反馈。它存在的价值,正是为了降低直接使用大模型的复杂性。
三、MCP与Skills:为模型赋能“外设”
知识的标准化接口:MCP
大模型并非全知全能,它需要访问外部的“知识”和“数据”来解决实际问题。早期的做法是将特定知识直接内嵌到模型中,或挂载一个专属数据库。但这带来了灵活性问题:数据动态更新和新技能的扩展变得非常困难。
于是,一个自然的想法是:为每个特定领域(如天气、翻译、学术论文)编写一套API供大模型调用。然而,现实是接口成千上万,且大模型本身也在快速迭代。开发者的直觉反应是:抽象一个统一的协议。这就是MCP的由来。
MCP全称为 Model Context Protocol,即模型上下文协议。它定义了一套标准,使得任何数据源或服务(服务端)与任何大模型(客户端)都能通过统一的方式进行对话。无论是新增知识源还是新的大模型,只要遵循MCP协议,就能自动适配。这极大地简化了知识获取的流程,使其变得标准而清晰。
提示词的“标准化”与“模板化”:Skills
驱动大模型的核心是提示词。提示词越精准、上下文越丰富,大模型的回答就越可靠。然而,如何编写高质量的提示词本身就成了一个“技术活”。同时,为了让大模型能更方便地使用外部工具(而非仅仅依赖输入的提示词),业界定义了 Function Calling 这样的标准接口,用于在自然语言与结构化API调用之间进行转换。
相信许多GPT用户都有过这样的体验:两次完全相同的提问,在不同时间或不同模型上,得到的答案可能大相径庭。这种不确定性会削弱用户对结果的信任。
那么,能否为特定任务设计一套固定的“话术”或模板呢?对于数学公式、公文写作等有固定模式的任务,这非常有效;对于开放性问题,则仍需大模型自由发挥。解决思路是“分而治之”:将任务中可模板化的部分固定下来,不可模板化的部分交给大模型,最后通过高优先级的“系统提示词”进行整合。这既能保证稳定性,又能发挥大模型的创造性。
例如,撰写简历、发布公告等任务都有固定模板。我们可以将提示词指向一个存储模板的位置,让大模型读取模板、填充内容、再返回给用户。这个包含了模板、调用逻辑甚至脚本的“增强包”,就是一个 Skill。多个Skill组合在一起,就形成了 Skills。Skills可以看作是大模型的“外设增强器”,它让模型能力得以延伸和标准化。
Skills还有一个巧妙的设计:渐进式披露。通过控制Skill元数据的丰富度和具体操作步骤的展开时机(例如,先搜索相关Skill,再逐步加载细节),可以引导大模型像“大人教小孩”一样,一步一步完成任务。这个过程不仅能让模型表现更优,还能有效降低token消耗。
你可能会问:这些能力不是大模型本该有的吗?理论上是的。但“应该”不等于“高效”。大模型的每一次“思考”都消耗算力,对用户而言就是token成本。因此,借鉴软件工程的解耦思想,将那些可以固化、无需或只需少量“思考”的逻辑抽离出来,是极具经济意义的。很多技术的诞生,本质上都是为了解决资源瓶颈。假若未来token成本趋近于零,Skills的重要性或许会下降,但在当下,它的价值毋庸置疑。
此外,Skills还提供了类似数据库“触发器”的机制,被称为 Reference。当内容中涉及特定敏感或关键信息时,会自动触发读取外部文件或执行特定操作,这使其变得更加智能和主动。
网上有些资料将Skills和MCP划分为“知识层”、“基础层”等,总结得虽好,但对非技术人员理解起来仍有门槛。经过上面的分析,我们可以清晰地看到,大模型主要面向两个方向:一是接收用户的提示词输入;二是通过标准接口获取外部数据与知识。
那么,Agent究竟在哪里呢?
四、LangChain与Workflow:落地的两种范式
理解了上述内容,Agent的定位就呼之欲出了。从普通用户视角看,Agent 是一个将大模型、Skills以及通过MCP连接的各种工具整合在一起的“实体对象”。从技术实现角度看,Agent是协调大模型、工具(经MCP封装)和Skills的“调度器”。视角不同,定义略有差异,这一点需要明确。从宏观应用流程看,就形成了“用户 -> Agent -> 大模型”的链条。用户直接与Agent交互,从而屏蔽了底层技术的复杂性。
然而,在开发者眼中,某些业务流程本身具有固定模式,可以进一步模型化。例如,处理一张风景图片,可能包含“读取图片 -> AI增强处理 -> 保存输出”三个步骤。其中,“读取”和“保存”是固定操作,只有“处理”环节需要大模型参与。这种处理模式非常类似于编程中的链式调用,它可以独立于上层的Agent调度。实现这种链式调用机制的主流框架,就是 LangChain。
不过,许多开发者和技术人员并不希望深入底层细节。他们更青睐通过图形化拖拽、简单配置就能实现功能的方式。这就是近年来大火的低代码/无代码理念在AI领域的体现,即 Workflow。有过管理系统或流程设计经验的人对此很容易理解。
在厘清Agent、Skills和MCP的关系后,我们可以这样区分两种落地范式:Workflow 更强调从业务逻辑和功能出发,由宏观设计者驱动,映射到底层技术;而 LangChain 更强调通过链式调用的技术机制来实现功能,流程由大模型驱动。两者服务于不同偏好和需求的群体。对于希望深入定制和掌控技术细节的开发者,可以参考 LangChain 等开源框架的实战经验与最佳实践。
五、更进一步:复杂场景与抽象视角
随着业务场景日益复杂,单一Agent可能力不从心,表现为上下文过于庞杂、难以管理。此时,可以在一个主Agent内部创建多个 子Agent,每个子Agent负责处理一类特定问题,并拥有独立的上下文。这体现了典型“分而治之”的思想。
对大多数人来说,MCP很容易理解,就是一个通信协议。而Skills这个名字可能没那么贴切,它本质上是一个“解决方案加载器”,负责将存储在特定位置的解决模型(包括元数据、模板、脚本)加载到与大模型的通信接口中。
从更抽象的层次看,Skills可以囊括MCP,将其作为一种“功能”进行加载。而无论是Skills还是MCP,在另一层抽象上,都可以被视为一种 Function Call。
从应用开发层面看,LangChain和Workflow更倾向服务于开发者(或有一定技术背景的人),它们接口稳定、链路清晰。而Skills和Agent更倾向于服务普通用户,能更好地适应跳跃性、非线性的用户思维。一个优秀的 知识库 体系,正是构建复杂Skills和稳定Agent的坚实基础。
从最终用户的角度看,Agent的表现形式多种多样:它可以是命令行工具(如CodeX),可以是集成开发环境插件(如Cursor),也可以是一个桌面智能助手(如各类AI Copilot)。
六、总结
归根结底,无论是Agent、Skills、MCP,还是LangChain与Workflow,其最根本的目的都是 降低AI大模型的应用门槛,特别是在当前阶段,减少使用成本。它们让更多人可以参与到AI应用中来,不仅提高了AI的普及度,也为大模型提供了更丰富的训练数据和更广阔的应用场景,从而摊薄整体成本,实现一举多得。
技术的演进总是围绕着解决实际问题和优化资源利用展开。理解这些核心组件,能帮助我们在纷繁的AI世界中,找到最适合自己的工具和路径。