2026年刚过去不久,一波能够处理高价值任务的人工智能Agent已经扑面而来,在真实场景中展现出远超预期的效果。从Cowork、OpenClaw(原Clawdbot)到Claude in Excel,这些产品不再仅仅是“更聪明的助手”,而是开始直接接管复杂任务、嵌入核心工作流,对现有的SaaS形态与人机分工方式形成了实质性冲击。
本文基于一场深度技术讨论的总结,探讨点不仅在于单点产品体验,更从底层视角出发,对Agent的价值边界、基础设施机会、2026年Token消耗大爆炸以及商业模式演变等关键问题进行了梳理。
这一波Agent爆发的“高价值”体现在哪里?
与两个月前市场对“AI泡沫”的担忧不同,Agent在近一两个月,尤其是在高价值任务上的表现,让大家感觉顾虑已基本消除。目前的高价值任务依然沉淀在知识工作者手中,其中最重要的是程序员,其次是操作Office、进行前端建站和数据分析的高级白领。OpenClaw、Claude Code、Cowork和Claude in Excel是近期讨论度最高的几个产品。
OpenClaw:最大的巧思是预装了Claude Skills
OpenClaw是一个开源、可自托管的个人AI助手,能在本地电脑或服务器上运行,并通过WhatsApp、Telegram、Discord等平台与用户交互、自动执行任务。它最初名为Clawdbot,后因商标问题更名为Moltbot,最终定名为OpenClaw。

OpenClaw的巧思主要体现在三个方面:
-
真正实现基于个人环境的长期任务执行
相比于Claude Code存在会话时长和算力成本的约束,OpenClaw可以部署在用户的本地设备(如Mac Mini)或云端虚拟机上,实现7x24小时持续运行。这使它从一个“召之即来”的工具,转变为一个持续存在的主动型Agent。例如,它可以全天候监控股票市场或定时在后台执行数据分析任务。
-
通过IM Gateway直接嵌入用户日常沟通流
OpenClaw基于IM Gateway可接入Telegram、Slack、WhatsApp等高频使用的通讯工具。在许多广为传播的应用案例中,用户正是直接通过IM来“指挥”Agent工作。在“移动指挥,本地执行”的架构下,OpenClaw解锁了极具价值的混合场景:例如,用户在通勤路上用手机发送指令,Agent在家中的电脑上检索本地文件、完成写作并返回结果。

- 将Claude Skills生态预装到产品中
客观而言,前两个巧思已有不同Agent尝试过。因此,将Claude Skills这一套工具生态真正预装到产品中,是OpenClaw最成功、也最契合时机的设计。这有点像早期智能手机通过预装应用商店和用例来教育用户,从而降低了使用门槛。
OpenClaw vs Manus:谁是Agents的“标准答案”?
在强调真实任务执行能力的Agent产品中,Manus被视为较早跑通产品市场契合度的代表。那么OpenClaw的火爆是否意味着Manus只是一个“中间态”?
从形态和使用入口看:
- Manus可类比为“Anthropic的To C业务”,走中心化、“交钥匙”体验路线,用户无法配置底层环境。
- OpenClaw代表了去中心化、高度可配置的路线,用户可以自定义环境和资源,适应长尾需求,并能有效利用分散的硬件资源。
因此,有观点认为OpenClaw在未来潜力更大。但也有不同声音指出,两者可能并非取代关系,而是动态演化:
- Manus使用云端虚拟机的模式,在技术架构上与OpenClaw并无鸿沟。
- Manus经过一年运行,积累了已验证的高价值场景数据,构成了认知壁垒。它完全可能基于这些数据,为OpenClaw这类场景提供标准化服务。
一个有趣的现象是,OpenClaw爆火后,大量教程推荐使用Mac Mini来专门运行。这不仅是因为硬件配置,更是为了获得成熟的操作系统、文件系统和完整的本地权限,便于无缝读取本地所有文件、代码库乃至私钥。但也有人指出,随着基础设施成熟,未来Agent的终局形态大概率仍是运行在云端的持久化虚拟机中,而非依赖本地硬件。
Cowork和Claude Code in Excel会打开“10x微软”市场
Anthropic最近发布的Claude Code Cowork和Claude in Excel都瞄准了高价值场景,这与该公司一贯的产品策略相符。如果说OpenAI是“下一个Google”,Anthropic则可能是“下一个微软”,甚至会因其在编码能力上的领先而打开10倍于微软的市场。
Cowork是Claude Code的自然延伸
Anthropic Claude Code的核心理念是“代码即一切,Bash是你所需的全部”。它没有为Agent专门开发复杂的GUI或中间工具,而是直接利用计算机最原生的命令行来执行任务。Cowork是Claude Code的自然延伸,这类产品能跑通,本质上是依赖于Opus 4.5能力的飞跃(Token消耗小且任务成功率高),使得编码领域的AGI在事实上已经达成,接下来的焦点是如何将这种能力外化到更多高价值任务场景。
Excel是生产力的放大和延伸
Excel被普遍认为是商业世界中最接近编程的工作界面。Anthropic选择Excel作为切入点,是一个极具战略眼光的卡位。这个产品的核心逻辑是利用Agent通过代码直接操作数据,绕过传统软件复杂的UI交互。以前需要人类打开软件点击完成的分析,现在变成了Agent在后台通过代码对Excel文件进行操作并交付结果。

这种模式可能对传统软件构筑的“界面壁垒”构成冲击,因为未来的操作者可能不再是人类,而是Agent。但办公软件本质上是一套标准传输格式和沉淀了人类经验的图形界面。Agent的可控生成能力会重构GUI,但只要信息需要在不同环境间流转,标准格式就是不可或缺的载体。因此,Claude集成进Excel意味着它会生产出更多Excel文件,这实际上是一个正和游戏。尤其在要求高准确性的场景,只要Human-in-the-loop的校验机制存在,人类就需要打开界面确认,Agent不得不以插件形式嵌入成熟生态。这一模式对比试图从Excel中切分蛋糕的SaaS公司(如Airtable)构成的冲击,可能比对微软本身更大。
高价值Agent一定会切分企业工资预算
尽管当前多数基础模型厂商的整体投资回报率仍为负值,且模型生命周期较短,但Claude Code的出现提供了新思路:可以通过高质量的“配套产品”来增厚模型的生命周期价值。有观点推测,Claude Code作为一个高溢价的编码Agent产品,单体投资回报率很可能已经转正。
过去,用户在C端习惯的订阅价格通常是每月20美元或200美元。但事实上,已有团队人均Token消费达到了每月500美元的水平,市场上开始出现定价在每月1000至2000美元的高价值Agent服务。这一价格跃升背后的逻辑是,Agent提供的不再是简单的辅助功能,而是能够替代或大幅增强专业人力的“高价值任务”执行能力。其定价策略开始脱离传统的SaaS逻辑,向“数字员工”的价值靠拢。
随着定价跃升,Agent的收入来源也在发生根本转移。以前无论是C端互联网还是B端SaaS,本质上是切分企业的营销或IT预算。然而,高价值Agent的出现大幅抬高了天花板,它开始切分企业庞大的工资(劳动力)预算。当Agent能独立完成编码、数据分析甚至全天候盯盘时,企业支付的就不再是软件使用费,而是购买劳动力所支付的薪酬。
不过,即便当前搭建Agent的门槛已非常低,但要判断Agent产出的内容(如剧本、分镜)是否合格,需要极深的行业知识。因此,未来的高价值Agent必须由真正的行业专家主导,因为他们具备做好任务背景描述的工程能力,并具备评估AI产出质量的能力。
2026年Token用量至少有10x增长
Claude Code、Cowork这类高价值任务Agent能完成人类需要一两天甚至更久才能完成的工作,相应地,其带来的Token消耗量级也在发生质变。例如,有开发者分享,某个处理图片、视频的Agent产品,其Claude code的成本消耗量超过了Nano Banana和Veo。
因此,一个激进但合理的预测是:相比2025年,2026年的Token消耗量预计将有10倍甚至更多的增长。长期任务、主动型Agent以及多模态三条技术主线都将是Token消耗大爆炸的驱动力。
开源模型“下限达标”是Token消耗暴涨的重要动力
过去一年,开源界都在拼命构筑“上限”,但对于大规模应用而言,单纯的上限突破意义有限,只有当能力的“下限”被抬高到稳定可用的水平时,商业化才成为可能。
因此,智谱GLM-4.7的发布具有标志性意义,它标志着开源模型历史上第一次真正触达了在编码和Agentic场景中的“可用下限”。

这一拐点彻底改变了行业的商业逻辑:过去几年,全球厂商大多依附于Claude、ChatGPT等闭源巨头的生态赚钱;而一旦开源模型跨过“可用下限”,无论处于什么赛道,都有机会直接通过开源模型进入市场并建立独立的盈利闭环。
正是由于“下限”达标,2026年开源模型的Token消耗量将迎来“大爆炸”。有开发者在Claude Code环境中运行GLM-4.7时,体验到了“无感”的使用,不再需要费心驾驭模型。同时,产业界对“下限”的要求并非一成不变,而是会随技术上限提升而水涨船高。因此,仅基于当前“下限”构建商业模式是不可持续的。
Token消耗量才是衡量AI-native程度的核心指标
真正的AI原生应用,是看谁能通过使用大量Token来解决复杂问题。使用Token的比例越大,说明越AI Native。如果还在用UV或日活看业务,说明仍在沿用旧的逻辑。
过去用大模型写一篇文章消耗的Token很少。但现在,无论是Manus还是Claude Code,其运行模式是让Agent通过自己写代码、跑环境、计算结果再交付,解决一个问题所消耗的Token量是传统聊天模式的百倍甚至千倍。未来绝大多数Token都会以编码Agentic的形式消耗掉。已有单用户Token日均消耗达到十亿级别的案例,有观点甚至预测,随着Agent能力增强,未来单人控制的Agent理论上消耗百亿甚至更高量级的Token将不再是难事。

还有观点认为,现在Token与Token之间开始变得不等价:
- 以前需要3000亿参数模型才能完成的任务,现在300亿甚至80亿的模型就能胜任。模型“压缩”带来的质量提升,使得小参数模型的Token价值在快速逼近大模型。
- 推理侧出现了像Cerebras这样不依赖英伟达GPU的专用芯片,Token生成速度概念也有所不同。

总的来说,市场对2026年全球Token消耗量持极度乐观态度,唯一的制约瓶颈可能在于硬件供应。在Agent爆发的驱动下,预计未来一年内GPU可能再次进入紧缺状态。
为Agent设计的基础设施是刚需
未来一定是人类用户与Agent在数字世界共存,但今天的互联网基础设施对Agent实际上处于一种“敌对”状态,因为现有数字世界是为人类设计的:
- Agent很难顺畅执行跨平台任务,常遭防火墙拦截或IP封锁。
- 当前的安全产品尚未准备好为Agent服务,Agent缺乏专门的安全、审计、支付接口。
- Agent执行长程任务时存在脆弱性。例如,让Agent遍历并总结X上的所有观点时,常因任务链过长而中途“断片”,需要人类反复介入。
更深层看,这种基础设施缺失也是交互关系倒置的体现。理想的Infra本应让Agent适应人,但目前体验却是人适应Agent:用户需耗费大量精力为Agent喂入正确的上下文或定位底层Bug。这引发了一个悖论:当Agent在云端全力运行时,机器的执行速度太快,人类的灵感、决策和反馈速度反而成了最慢的一环。
基础设施的缺失反过来催生了巨大的新机会,主要包括:
- Infra of Agent:构建Agent本身所需的基础设施。
- Infra for Agent:给Agent使用的基础设施。
这包括专门为Agent优化的浏览器环境、专用网络和支付系统。例如,有开发者做了专为Agent设计的浏览器界面,能显著节省Token并提升成功率。

更进一步,还有一个高阶需求:主动对齐。目前的Agent大多被动接收指令,但人类往往无法精准描述深层需求。未来的Infra需要具备“建模用户”的能力,让Agent能主动构建用户的数字分身,理解其思维习惯,而不是每次都要用户费力写Prompt。
此外,随着Agent任务复杂度上升,可能会带来CPU负载的回潮,但这里的商业价值更倾向于产业链的自然延伸,并未构成高壁垒的独立机会,因为沙盒门槛低、CPU供应充足、沙盒终局形态尚不明朗。
我们正在进入“隐私换效率”的时代
为了追求极致效率和生产力,用户(尤其是开发者和极客)对隐私和权限的观念正在发生根本性转变。为了让Agent更好地理解个人上下文并自动执行任务,大家开始愿意让渡极高的权限。
- 有开发者尝试让AI直接操作用户的股票账户进行策略编写和交易。
- 在OpenClaw使用中,用户为获得更快对齐,直接赋予Agent读取本地所有文件的权限,甚至包括钱包私钥。
这种为了便利而全盘托付的现象,或许标志着我们正进入一个“隐私换效率”的激进时代。但这种尝试也已带来代价。例如,一位博主让OpenClaw在Polymarket上下注,由于平台接口未返回明确成功参数,导致Agent重复下注40次,亏损1.4万美元。

总的来说,当前Agent生态处于类似互联网早期的“田园时代”,用户在一定程度上是在“裸奔”。随着用户群体从早期用户转向大众,安全威胁势必大幅增加。行业可能需要经历几次严重的安全事故作为教训,才能真正重视安全。
The End of SaaS?
关于软件的未来,存在两种观点。
激进派:软件将被吞噬
“软件正在被吞噬”是相对主流的叙事。其核心逻辑是:研究如何让Agent操作为人类设计的交互产品是错误方向。软件本质上只是流程的载体,当Agent能够直接操作数据和API时,那些为人类设计的复杂UI将变得毫无意义。Agent会直接绕过“中间态”去接管任务。随着Agent接管任务增多,“中间态”市场空间将被极度压缩。传统软件开发中的精细分工也将失去存在基础。像TapTap Creator这类产品,已展示用户用自然语言生成游戏内容的可能,暗示了软件作为操作工具的属性可能被剥离。

保守派:Software as Tools
这一派强调必须区分人与工具。在Agent爆发后的生产关系中:软件演变为工具,Agent是工人。
- Agent的产出具备概率性,可以做判断和创造。
- 软件具备100%准确性、绝对稳定性和流程固化能力,可充当“工具”或“机器”角色。
因此,在企业里,软件不会完全被替代,而是会退化为底层的工具和数据库,更多地由Agent通过代码驱动。软件的未来壁垒可能在于“本体论”:定义清楚组织逻辑、隐私边界和业务上下文。
如何实现Agent的真正泛化?
目前全球可能有20亿人使用过Chatbot,但真正使用过Agent的人数可能只有几千万。Chatbot被当成了搜索引擎在用,而Agent代表了一种全新的交互范式,要把用户规模从几千万带到几十亿,中间存在巨大差距。为了跨越鸿沟,有三种思路。
思路1:人群分层渗透
目前没有“万能钥匙”,而是针对不同人群出现了三种平行的产品形态:
- 面向硬核技术人员:以Claude Code为代表,门槛高,在终端环境中通过大量Token消耗感受Agent威力。
- 面向知识工作者:以Manus为代表,将自动化能力封装,提供“交钥匙”体验,赋能商业办公场景。
- 面向大众:以OpenClaw为代表的IM Bot,利用社交软件和网络效应,让用户在日常交流中自然接触Agent。
思路2:Agent是难用的“电脑”,还是易用的“手机”?
- “电脑派”:认为当前Agent更类似早期PC,用户需要像学习DOS命令一样跨过技术门槛才能获得能力杠杆,普及是缓慢渗透的过程。
- “手机派”:认为Agent要实现几十亿用户普及,必须像智能手机一样“零门槛”。这可能需要等待Google、Apple等巨头在操作系统底层完成深度封装,将复杂问题在后台“黑盒化”。
思路3:屏幕只是过渡,实体机器人才是未来
一个颠覆性观点是:目前火热的屏幕内Agent,本质上是不断变化的过渡性“壳”。只要Agent还困在屏幕里,就很难成为终极形态。原因有二:一是现有数字Agent在为不完美的数字基建“填坑”;二是目前主导讨论的是程序员和投资人,难以同理全球数十亿从事体力劳动的普通人。因此,Agent的终极形态必须是进入物理世界。直到高智能的“壳”套到机器人身上,让AI从屏幕走进物理世界解决实际问题时,才会迎来真正终局。
以上就是对当前高价值Agent发展、Token经济演变及未来路径的深度探讨。希望这些来自技术社群的碰撞,能为关注人工智能和Agent发展的开发者提供一套更接近现实约束的思考框架。技术演进日新月异,更多深入讨论和实践分享,欢迎来到云栈社区交流。