“99%的企业级 Agent 都只是玩具!”
在最新一期《VentureBeat》播客中,Replit 的联合创始人兼 CEO Amjad Masad 毫不留情地抛出了一个观察:今天市场上被称为 Agent 的东西,绝大多数并不具备商业价值。
他指出,现在真正能赚钱的 Agent 只有两类:一类是客户支持,比如 Sierra 做的 AI 客服;另一类就是软件开发。除此之外,基本都是一些实验和玩具。
(注:Sierra 是前 Salesforce 联席 CEO Bret Taylor 与前谷歌高管 Clay Bavor 联手创办的 AI 客服公司,目前估值近百亿美金。)

Replit 是一个在线云集成开发环境 (IDE),允许用户在浏览器中无需安装任何软件,即可编写、运行、调试和分享代码,支持超过 50 种编程语言。2023 年,Replit 上线了自己的 AI 辅助编程工具 Ghostwriter。因烧钱过快,Replit 一度大规模裁员,Amjad Masad 坦言公司裁掉了一半员工。

然而,Replit 把全部筹码压在了 Agent 上。2025年2月,他们推出了 AI 编程平台 Replit Agent。它基于 Anthropic 的 Claude 3.5 模型,将复杂的开发流程拆解,把各项任务分配给不同的智能体,最终整合起来呈现给用户。凭借这款产品,Replit 在 2025 年 6 月实现了年度经常性收入 (ARR) 突破 1 亿美元大关。

在访谈中,Amjad 自曝 Replit 从 Copilot 转向 Agent 的契机来自于两个关键节点:工具调用能力的成熟和上下文长度的扩展。他强调所有 AI 公司都应该采用“烂产品”策略。
你必须持续构建半成品、甚至是很烂的产品。这样当某个新模型突然解锁了你真正关心的能力时,那个之前‘跑不通’或者‘跑得不太好’的产品,会立刻开始跑通,而你会是第一个进入市场的人。
“AI Slop”这个词最近被频繁提起。Amjad 给出了他的定义:Slop 指的是模型生成的是泛化、一次性、质量不高、看起来都一样的内容。在他看来,解决“Slop”需要平台投入更多努力,为 Agent 注入“品味”。如果只依赖底层基础模型,得到的一定是通用答案。
他还向很多 AI 公司发出警告:如果你想要比市场跑得快、尽早发布,就必须扼杀你的产品路线图,接受大量代码被推翻重来。
Agent 市场上充斥着大量“玩具”
主持人: 你在趋势判断上通常领先行业几个月甚至几年。从当前 Agentic AI 的状态来看,你认为大多数人忽略的关键信号是什么?
Amjad Masad: 目前真正跑通的,只有两类事情。第一类是客户支持。已经有像 Sierra 这样的创业公司在做支持自动化。第二类是软件开发。除此之外,基本没有什么真正有效的用例。现在市场上充斥着大量“玩具型产品”和实验项目。很多人只是把“任何用了 AI 的系统”都称作 Agent。

我对 Agent 的定义,来源于 30 到 40 年前 AI 研究者的原始定义,有两个核心条件:第一,必须是自主的,也就是说,它可以在没有人类监督的情况下行动。第二,它必须能够采取行动,而不仅仅是检索信息。如果只是做信息检索,那本质上还是一个聊天机器人。
聊天机器人是有效的,但它们对企业的价值其实有限,并没有真正自动化工作。它们更多是让人变得更高效。真正的瓶颈往往不在 AI 本身,而在于大型企业和政府内部极其混乱的数据基础设施。
从 Copilot 到 Agent 的关键转折:工具调用和上下文长度
主持人: 你们从 Copilot 转向完整 Agent 的速度比几乎所有人都快。有没有某个明确的时刻,或者某个模型能力,让你意识到人类不再是驾驶员,而是管理者?
Amjad Masad: 确实有几件关键事情,逐步推动了 Agent 的解锁。大概从 3.5 这一代模型开始,我们看到了一个关键能力:工具调用。在那之前,工具调用基本都是“黑魔法式”的 hack。后来,模型开始被直接训练去做工具调用。那一刻你会意识到:“好,现在模型终于可以真正采取行动了。”

另一个巨大问题是上下文长度。当时模型的“即时记忆”非常小,大约只有 2,000 tokens。而现在,我们已经到了百万级 tokens。这是多个数量级的跃迁。
到了 2024 年初,我突然有一种非常强烈的直觉,我们现在就应该去做。那种感觉是:“还没完全成熟,但已经足够接近了。”
如何快速跟上市场:持续构建“烂产品”
Amjad Masad: 我一直反复对团队强调一件事,我也认为所有 AI 公司都应该这么做:你必须持续构建半成品、甚至是很烂的产品。这样,当某个新模型突然解锁了你真正关心的能力时,那个之前“跑不通”的产品,会立刻开始跑通,而你会是第一个进入市场的人。

与此同时,业务本身其实也遇到了一些困难。Ghostwriter 本质上仍然只是一个助手。它不能帮用户把事情从头到尾全部做完。大家觉得它很酷,但用户很难真正走到生产级应用。所以到了 2024 年,这既是一种生存上的必要,也确实感觉机会已经近在眼前了。
我们最初是从 GPT-4o 开始的。它搭建的系统能构建一个非常简单的应用,但整个过程大概 30 秒。如果 30 秒内没完成,它就会直接崩溃,完全失控。
真正的转折点出现在 2024 年 6 月,Anthropic 发布 Claude 3.5。它有两个至关重要的特性。第一,它不“偷懒”。它可以一次性写出大量文件,而且不容易出错,通常你第一条 prompt 就能成功。第二,它更有“方向感”。它能连续进行多次工具调用,而且在调用之间犯错更少。这让它可以在较长时间内保持连贯性。虽然依然不算特别长,大概能稳定工作两分钟左右,但两分钟已经足够完成很多事情了。
我们一接入 Claude 3.5,效果立刻全面提升。于是我们全力押注,并发布了 Replit Agent。这是市场上第一个普通用户就能直接体验的编程 Agent。在它之前,确实有一些实验性的开源项目,但都非常难用。
即便 Replit Agent 当时还不完美,我们还是选择发布。它的关键不只是写代码,而是还能自动配置基础设施、创建和迁移数据库、配置部署流程,这件事迅速走红。当时 Andrej Karpathy 形容它是一个“领域级 AGI 的时刻”,因为你已经能明显感觉到:Agent 开始真正跑起来了。
如何解决“AI Slop”:平台品味和测试闭环
主持人: 你提到了 Andrej Karpathy,他最近把很多 agentic 工作称为 “slop”。你也认同除了编程和客服,真正能在企业里跑通的 Agent 很少。
Amjad Masad: 首先我们要定义什么是 slop。Slop 指的是模型生成的是泛化、一次性、质量不高、看起来都一样的内容。大多数 AI 产品并没有深入到足够深的层次,所以你会看到一种高度的同质化。
解决 slop 的方式,是平台本身必须投入更多努力,并且由平台开发者为 Agent 注入“品味”。如果只依赖底层基础模型,你得到的一定是通用答案。

在 Replit,我们有自己的 prompts、自己的设计系统、自己的一整套方法论。比如在设计系统上,我们会根据你要构建的应用类型(比如电商),从设计系统库中进行分类和检索,然后通过 RAG 注入到 prompt 中。我们也会消耗更多 token,确保输出质量。这会更贵、更慢,但结果明显更好。
另一个关键点是:把测试引入 Agent 闭环。在 vibe coding 这个领域里,Replit 是目前唯一能测试自己产出的产品。
流程是这样的:
- 编码 Agent 生成第一版
- 启动一个测试 Agent
- 测试 Agent 打开浏览器、点击按钮、检查页面
- 把测试结果反馈给编码 Agent
- 多轮循环,直到质量达标
而且,测试 Agent 使用的是不同的模型。从统计学角度看,每个模型都有不同的知识分布。当你让模型相互对抗时,就能利用这些分布差异,减少同质化,产生更多高质量变化。
在 Replit,即便我们大量投入 AI,我们的 DNA 依然是基础设施。我们默认一个事实:大语言模型是统计机器,永远会犯错。真正的问题是:系统如何从错误中恢复?
回应数据库误删风波:可靠性的两个原则——隔离和可逆性
主持人: 我们还看到过风险,比如你们 7 月那次事件,有知名开发者在代码冻结期间,数据库被整个删除。所以这是一个可以靠防护机制修复的问题?还是说,非确定性模型本身就不该被赋予生产环境的写权限?
Amjad Masad: 在 7 月那次事故之前,我们已经在做一件事:隔离开发环境和生产环境。当时,开发和生产是可以共用数据库的,只是需要额外步骤,而很多用户并不知道该怎么做。现在我们把隔离变成了默认行为。
现在,当你创建一个开发环境时,你得到的是一个嵌入在文件系统中的开发数据库。Agent 可以随便删、随便改、随便破坏。但当你点击 “Publish”:我们只基于数据模型生成迁移,不会迁移开发数据,生产数据完全不会被触碰,这使得当初那种事故不可能再次发生。
在我们看来,可靠性有两个核心原则。第一是隔离。开发数据库只在开发环境可访问,生产数据库只在生产代码中可访问。

第二是可逆性。在开发环境中,当 Agent 出错时,你可以一键回滚:数据库、存储、文件系统,全部回到之前的状态。
这也引出了一个更大的问题:并不是所有事情都是可逆的。在软件开发中,大多数操作都是可回滚的。但在企业场景中,比如银行转账,很多操作是极难逆转的。这也是为什么我们现在看到,Agent 最先大规模落地的领域,依然是软件开发。
为什么营销类 Agent 会失败
主持人: 你之前提到过:AI Agent 在代码领域表现很好,是因为有可验证的单元测试——要么能编译,要么不能。但现在,很多企业 CIO 正在尝试把 Agent 用在一些更“模糊”的事情上,比如 HR 政策、法律策略、市场营销分析。如果一个营销策略根本不存在单元测试,这些 Agent 是否注定会失败?
Amjad: 这是一个非常深刻的问题,直指 AGI 的核心。如果我们训练模型在“可验证领域”里非常强,它们的能力是否会迁移到这些更模糊的领域?目前来看,答案是否定的。
到现在为止,当你让模型在数学或软件领域变得非常强时,它在这些领域的推理能力确实会提升,在偏向“不那么模糊”的领域(比如法律)上也会有一些边际改进。但一旦进入营销领域,几乎看不到任何泛化能力的提升。
这也是为什么我认为所有大型实验室都必须在这一点上真正做出创新。现在他们构建的强化学习环境,几乎都依赖于“可验证奖励”——数学、科学、工程。相较之下,培养一个真正优秀的法律专家或 HR 专家,反而更难。

在模型缺乏“好品味”、缺乏对模糊领域的高质量判断和推理能力之前,企业内部部署 Agent 会非常困难。这是当前最大的瓶颈之一。
当然,也有一些绕开的办法。大型模型公司正在做的事情,是为每一个具体领域购买数据包,并构建“人类在环”的强化学习环境。比如 Gemini 3 在网页设计上的突破。我猜测他们很可能是找了数据合作方,请来世界顶级的网页设计师,构建专门的 RL 环境,让这些专家持续生成高质量设计数据来训练模型。
Claude Opus 是最核心模型
主持人: 那你们的底层推理模型是什么?Sonnet?Gemini?是否会根据场景切换?
Amjad: 我们把自己定位为“Agent 实验室”,目标是为不同任务选择最合适的模型。目前,核心的编程 Agent 和编排 Agent 使用的是 Claude Opus。虽然它更贵,但效率更高,非常适合长时间跨度的推理任务。

但我们同时使用很多子 Agent。例如,代码库搜索使用 Gemini(长上下文、便宜、速度快);设计相关任务使用 Gemini 3。我们的工作就是不断评估不同模型在不同场景下的表现。不过,Opus 仍然是最核心的模型。
护城河在于速度、基础设施和工程能力
主持人: 你提到过“计算机使用”是一个巨大挑战,也就是让 AI 像人一样移动鼠标、点击界面。这件事又贵又不稳定。但你们似乎为 Agent V3 构建了一套“hack”,让它可行。这是否构成了一种护城河?你们的方法到底快和便宜多少?
Amjad: 很多企业问题,最终都绕不开“真的在屏幕上操作”。测试软件是否能用、RPA 自动化,本质上都依赖这一点。但目前的“通用计算机使用模型”并不好用:它们慢、贵、容易出错。
当我们想为 Agent 加入“验证器”时,必须测试应用是否真的能跑。直接接入通用的 computer-use 模型,效果非常糟糕。所以我们换了一种思路。如果 Agent 本身是写代码的人,它就可以在代码中加入特定的注解。我们让编码 Agent 主动做这些标注,再用一个视觉模型去确认界面是否符合预期。但真正执行“操作”的部分,并不是让模型去控制真实鼠标,而是通过程序化方式完成测试。
正因为如此,这套方法大概能做到 10 倍更便宜、3 倍更快。这不是因为模型突然变强了,而是因为我们根本绕开了最昂贵、最不稳定的那一层。
主持人: 那这算不算一种护城河?还是说这只是一个阶段性的优势,其他人也很快就能跟上?
Amjad: 我认为真正的护城河在于:我们解决这些问题的速度,以及能否率先把东西推向市场,在 AI 原生方案真正成熟之前领先几个月。

我们的护城河也来自基础设施。举个例子,我们的 computer use 系统——在所有 vibe coding 工具中,Replit 是唯一一个构建了完整基础设施的公司,能够非常快速地在云端启动虚拟机、对虚拟机进行 fork,并在测试完成后再合并回主环境。
如果没有这样的基础设施,而且还要把整个测试过程实时流式地展示给用户,那要做到同样的事情,工程成本会高得多。
主持人: 所以这个护城河,本质上更多是“时间优势”?你只是把一整套步骤提前做完了,并不是什么别人永远无法复制的秘密或颠覆性创新。
Amjad: 是的,时间加上人才。很多新兴的 vibe coding 工具,在产品设计、市场营销上都很强,但我们底层有非常深的基础设施工程能力,我们招了很多来自 Google Cloud、AWS 的工程师。
Replit 在底层是一家真正的云基础设施公司。我们有很多创新是极难构建的。比如我刚才提到的文件系统——一个可以在毫秒级 fork 的自研文件系统,这花了我们三到四年时间才逐步成熟,别人要追上来同样需要很长时间。
验证器循环:如何让 Agent 连续工作 20 小时不“发疯”
主持人: 你提到过一个“验证器循环”的概念。最早是 Nvidia 在论文中用 DeepSeek 做 CUDA kernel 自动生成,你们后来也借鉴了这个思路。你之前提到 Agent 的工作时长从 2 分钟、20 分钟、200 分钟,现在甚至可以到 20 小时。那问题是:一个 Agent 怎么能连续跑 20 小时、不断修正自己的错误,而不陷入幻觉循环?
Amjad: Nvidia 那篇论文的背景是:他们想让模型自动写 CUDA kernel,这非常难。一次性生成的成功率大概只有 50%,这显然不够自治。
于是他们引入了编译器和验证器:先生成一次,测试;失败了,把错误反馈给模型,再生成一次,再测试。理论上,这个循环可以无限继续,从而不断提高自治程度。
但现实中会遇到一个硬限制:上下文长度。所以你还需要另一项能力——上下文压缩。而这件事同样非常难:在不丢失关键信息的情况下压缩上下文,是一个极具挑战的问题。

我们在这上面花了大量时间,研究如何在保留“重要信息”的同时进行压缩。
主持人: Google 也在做,像 Weka、Vast Data、KV cache 相关厂商也在研究。
Amjad: 是的。上下文压缩非常重要,而且成本也很高,因为你本质上是在创建一个全新的 prompt,会直接破坏 KV cache。如果你能把 verifier loop 和 compaction 这两件事做好,Agent 才有可能连续运行数小时。
工作流程大概是:Agent 执行一段任务 → 进入验证器 → 如果成功就结束 → 如果失败就返回结构化反馈 → 如果上下文用尽,就进行压缩,只携带关键状态继续。
“产品路线图”在 AI 时代是失效的,必须接受大量代码被推翻重写
主持人: 上下文压缩是你们自己做的,还是依赖 Google / Anthropic 的基础设施?
Amjad: 我们最初做上下文压缩的时候,平台层的 API 根本还不存在。这也是 AI 时代的一个特点:你经常需要先自己解决一个问题,而这个问题后来会变成平台的标准能力。
如果你想跑得快、尽早发布,就必须接受一种完全不同的工作方式:大量代码会被推翻重写,没有路径依赖,也没有情绪包袱。一旦模型或平台能把这件事做得更好,你就立刻丢掉自己的实现,转向下一个更难的问题。

很多公司卡在这里——他们会说:“这是我们辛辛苦苦做出来的,我们不能不用它。”但这种心态在 AI 时代是致命的。
主持人: 那你们和 Google、Anthropic 的紧密合作,是否能让你们提前知道路线图?
Amjad: 我们确实能提前接触到新模型。但更重要的是预测趋势:比如 computer use 一定会变得更快、更便宜、更好,但问题是一个月,还是一年?我们不想等路线图,所以选择自己先做。我预期这类自研方案能领先大概 12–18 个月,这个时间窗口是值得投入的,哪怕之后要全部丢掉。
主持人: 那像记忆压缩,这件事算是已经被平台“解决”了吗?
Amjad: 平台的 SDK 已经不错了,但我认为我们现在做得更好。原因很简单:我们只关注“agent 做应用开发”这一件事,而平台方案必须同时服务聊天、搜索、代码等所有场景。因为问题域更窄,我们能做得更深。但长期来看,通用方案迟早会“好到够用”,那时就可以卸载给平台。
AI在企业里最具冲击力的方式,是员工自己vibe coding
主持人: 我们聊了自治机制和基础设施。现在回到企业层面,还有哪些“管道在漏水”?比如上下文状态、数据层、文档散落在 Notion、Google Docs 里,甚至 agent 卡在登录页就直接失败。
Amjad: 访问控制是一个巨大问题。企业里不同角色对不同数据有不同权限,这必须成为 Agent 上下文的一部分。还有法律政策、HR 政策等,这些都需要被“平台化”。如果 AI 真要带来实质性的生产率提升,甚至影响 GDP,那么这些系统必须以可编程、可理解的方式暴露出来,才能构建真正有用的 Agent 和自动化流程。
主持人: 听起来这件事可能要到 2026 年以后才能真正理清楚。
Amjad: 甚至更久。这正是为什么 vibe coding 正在企业里爆发。

主持人: Ramp 的数据显示,你们已经是增长最快的软件供应商之一。为什么会这样?
Amjad: 因为这是企业目前最现实、最有效的 AI 落地方式。我们讨论的那些问题,数据、权限、策略、可验证性都非常难、非常脏。最简单、最有效的路径,是:让企业里的每一个领域专家,变成“软件工程师”。哪怕他们拿不到完美的数据,只是上传 PDF、CSV、文本文件,也已经能自动化大量工作,减少对 SaaS 的依赖,显著提升效率。
真正能立刻带来生产力提升的,是让员工自己动手,用 vibe coding 解决每天真实存在的问题。这正是 AI 在企业里当前最具冲击力的使用方式。
关于编排器和模型的争论
主持人: 现在有一个关于“编排和模型本身”的争论。比如 LangChain、各种 SDK,像 Google 的 ADK,用来构建 Agent?还是说我们应该直接信任模型本身去做规划?
Amjad: 我还是回到一个核心原则:要务实、要灵活,而不是意识形态化。现实是,它一定是此消彼长、来回摆动的。
比如,我们的 Agent beta 比 Agent v1 有复杂得多的“控制框架”。这是因为当时出现了一个“苦涩的教训时刻”:3.7 版本的模型在 agentic 能力上突然变强了,后来 4.0 更强,于是我们就可以把大量原本的控制逻辑砍掉,直接让模型来做。
举个例子,我们很早就开始“让模型用 shell”。在软件工程里,与其对代码做 RAG,不如直接让模型在 shell 里用 grep、find 这些命令去找文件。RAG 系统本身非常复杂,把它整个拿掉,告诉模型“你要找文件就用 shell”,系统反而变简单了。
但与此同时,事情又会反转。现在 Agent v3 能做的事情多得多,所以系统又重新变复杂了。也就是说:对于同一套功能,随着模型进步,我们确实能删掉很多复杂性;但当我们不断加新能力,复杂性又会重新累积;再过一段时间,模型再进步,我们又能把这些复杂的测试框架、控制逻辑再删掉。所以你不能有工程自尊心,要随时准备扔掉代码、重来一遍。

我们当然可以对企业承诺一些东西,比如“6 月之前做到 HIPAA 合规”,但当客户问“产品能力半年后会是什么样”,我们只能模糊地说两三个月内大概会怎样。因为经常是:一个新模型出来,我们就要立刻停下手头所有事情,去评估这个模型能干什么,然后快速调整方向。举个例子:Replit 之前在设计能力上并不突出,但我们一夜之间成了世界第一,因为我们搞清楚了如何正确 prompt Gemini,直接把它的设计能力释放出来。
Agent的成本上升,但替代劳动力市场的天花板更高
主持人: 我们转到成本问题。有人提到,大规模推理链会带来巨大的 token 成本;同时,每个 Agent 还需要独立的容器来运行和测试代码。你们一直在前沿实践这些,所以实际上承担了双重成本。当初你是否担心单位经济模型跑不通?
Amjad: 在 Web 2.0 时代,互联网业务有一个“魔法公式”:新增用户的边际成本几乎为零。一个虚拟机可以承载成千上万用户。但现在不一样了。一个 token 就是一个 token,你不能像共享虚拟机那样共享 token。这意味着我们进入了一个全新的软件时代。传统 SaaS 那种 80%、90% 的毛利率,可能不会再普遍存在了。
但关键在于:市场本身变得大得多。整个 SaaS 市场大概是 5000 亿美元,而 AI agent 的 TAM 不只是软件,而是劳动力,那是数万亿美元,甚至 10 万亿美元级别的机会。所以即便未来只有 50% 的毛利率,这依然是一个极其可观的生意。我们能在一年多时间里把收入从 300 万做到 2.5 亿美元,核心原因只有一个:ROI 太高了。这是实实在在的“劳动力替代”。

有客户告诉我们,他们原本要雇很多外包团队、招聘工程师,现在直接用 Replit 就够了。生产力的提升是指数级的。所以结论是:机会更大,但经济模型和过去完全不同。
主持人: 那你们现在单位经济已经是正向的吗?
Amjad: 是的。我们现在财务状况非常好。几个月前我发过一条推,说我们甚至还没动用 2023 年融资的钱。当然我们仍然会做一些成本很高的实验,并主动吃掉这些成本。但我们已经验证过:单位经济是跑得通的。
程序员职业总量会减少,vibe coders会爆炸式增长
主持人: 五年后,企业里的初级开发者还会存在吗?
Amjad: 我不确定。我们已经看到:一些小公司、创业者已经不再招聘工程师了。一个从没写过代码的人,用 Replit 就能做到百万级 ARR,这在过去至少是 A 轮公司的规模。
但也有另一种情况:有公司节省了大量成本后,反而雇了更多“会用这些工具的人”,把钱投向创意、内容、判断力,而不是写代码本身。
长期来看,我的判断是受过传统计算机科学训练的“职业程序员”总量会下降;能用 agent 解决问题的“泛软件创作者(vibe coders)”会爆炸式增长。

就像汇编、C、Python 的演进一样:底层专家永远存在,但抽象层越高,参与的人越多,整个开发者的总量反而是增长的。这是一次规模空前的“机会解锁”。
以上内容根据 VentureBeat 播客访谈整理,更多关于 AI 前沿与开发者动态的讨论,欢迎访问 云栈社区 进行交流。