云栈社区»论坛 › 站务中心「 Forum Service 」 › Agent-Browser与Browser-Use对比测评：适用场景与成本效益分析 ...

发回帖发新帖

2990 积分	0 好友	413 主题

发消息

Agent-Browser与Browser-Use对比测评：适用场景与成本效益分析

发表于 14 小时前 | 查看: 0| 回复: 0

最近，一个观点引起了我的注意：如果需要完成严肃的浏览器自动化工作，最佳的浏览器工具是Browser-use，而非OpenClaw自带工具、Playwright MCP或Agent Browser。

严肃浏览器自动化工作工具推荐

之前我们体验过几期Agent-browser，它是一款非常轻量、适合集成在Agent CLI中的浏览器工具。搭配Skill使用，能让AI直接操作浏览器。那么，作为同样具备浏览器操作能力的Browser-use，它的表现又如何呢？今天我们就通过详细的横向测评来一探究竟。

安装与准备

首先，我们需要安装Browser-use这个Skill。可以前往Skill Hub（https://www.skill-cn.com/skill/51）进行安装，既可以通过命令行指令安装，也可以直接下载ZIP包。

Skill Hub中的Browser-use技能页面

本次我们将使用Claude Code进行实战演示。安装完成后，在指定目录下可以看到技能已加载成功。

Claude Code中成功加载技能

技能加载完毕，接下来就正式进入测评环节。

核心亮点：复用用户浏览器与登录态

无论是Agent-browser、Chrome MCP还是Playwright MCP，处理用户登录态始终是一个令人头疼的问题。因为它们通常会启动一个全新的浏览器实例，而这个新浏览器是不带任何已有登录状态的，这就导致在需要操作已登录页面的场景下十分棘手。之前为了在Agent-browser中解决登录态问题，也费了不少功夫，而Chrome和Playwright MCP甚至需要额外安装浏览器插件。

Browser-use的解决之道在于，它直接支持调用用户本机已有的浏览器，并复用浏览器中现有的所有登录状态。

我们在Claude Code中触发Browser-use技能，并给出指令：“用我的浏览器打开[飞书链接]，看看里面是什么内容”。

触发Browser-use技能打开飞书链接

这时，Browser-use会询问我们希望使用哪个Chrome用户配置文件（Profile），通常选择默认的即可。

Browser-use提示选择Chrome配置文件

操作完成后可以看到，Browser-use直接读取到了飞书文档内的全部内容，期间没有进行任何登录操作，因为它直接复用了我们本地浏览器中已登录飞书的状态。

成功获取飞书文档内容

无需额外配置即可使用现有登录态，这是Browser-use在易用性上的一个显著优势。

第一轮PK：简单任务 - 网页信息读取

我们首先测试两者在“普通网页信息读取”这类简单任务上的表现。

测试Browser-use
指令：“打开https://www.skill-cn.com，看看这个站点是做什么的”。

使用Browser-use技能打开指定网站

对于这种简单的信息提取任务，Browser-use毫无压力，很快就给出了准确详尽的答案。

Browser-use读取Skill Hub网站内容的结果

我们重点关注一下此次操作的Token消耗。一次普通的网站信息读取，Browser-use花费了 $1.42。

Browser-use执行简单任务的成本统计

测试Agent-browser
使用完全相同的指令。

使用Agent-browser技能打开指定网站

结果方面两者相当。Token消耗为 $0.76。

Agent-browser执行简单任务的成本统计

第一轮结论
对于“普通网页信息提取”这类简单任务，Browser-use和Agent-browser都能准确完成。但在成本上，Agent-browser的Token消耗明显低于Browser-use。

第二轮PK：中等任务 - 多步骤网页操作

我们提升任务复杂度，测试一个需要多步交互的场景：打开京东首页，完成登录，并提取历史订单信息。

测试Browser-use
指令包含登录方式和手机号（验证码需人工协助）。

使用Browser-use登录京东并查询订单

任务顺利完成，成功登录并获取了近三个月的订单汇总数据。

Browser-use成功获取的京东订单信息

此轮操作的Token消耗为 $3.76。

Browser-use执行中等任务的成本统计

测试Agent-browser
使用相同指令测试Agent-browser。这里注意到一个细节：Agent-browser并没有直接在首页弹出的登录弹窗中操作，而是关闭了弹窗，转而点击页面右上角的登录入口，跳转到了独立的登录页面进行登录（验证码同样需人工协助）。

Agent-browser在京东遇到的登录界面

最终虽然也拿到了订单信息，但Token消耗高达 $5.23。

Agent-browser执行中等任务的成本统计

这个结果有些反直觉，因为Agent-browser一向以轻量和低消耗著称。分析原因，很可能是由于其未能准确识别首页的登录弹窗元素，导致操作路径绕了远路，从而增加了Token消耗。

第二轮结论
在需要理解页面元素并进行多步交互的中等复杂度任务中，Browser-use对浏览器页面的语义理解能力更强，执行路径更直接，在此次测试中反而取得了更低的成本。

第三轮PK：复杂任务 - 飞书文档在线编辑

我们挑战一个公认的高难度场景：在飞书网页版中在线编辑文档，并额外要求“格式精美，使用高亮块等排版工具”。

使用Browser-use编辑飞书文档的指令

测试Browser-use
Browser-use开始了自动操作，尝试在富文本编辑器中寻找并插入“高亮块”等功能。

Browser-use尝试在飞书编辑器中操作

经过一番自动化操作，它成功创建了文档，并写入了带有标题和基本格式的开头部分。

Browser-use编辑飞书文档的中间结果

Browser-use在飞书中创建的文档标题

达到这一结果，Browser-use总共消耗了约 35分钟，成本$9.05。考虑到任务的复杂性，这个结果已经超出了预期。

Browser-use执行复杂任务的成本统计

测试Agent-browser
Agent-browser在开始阶段表现正常，但很快它似乎“意识到”通过浏览器自动化逐字输入和操作富文本菜单的效率极低。

Agent-browser试图改用飞书API来逃避浏览器操作

它开始提议改用飞书开放API来直接写入内容，这相当于“逃避”了我们设定的浏览器自动化测试目标。

表达困惑的表情包

当我们强制要求它继续使用浏览器操作时，它最终只是在编辑器中留下了空白。

Agent-browser最终在飞书文档中留下的空白编辑界面

最终，Agent-browser消耗了约 30分钟，成本$16.57，且未能有效完成文档编辑任务。

Agent-browser执行复杂任务的成本统计

第三轮结论
在面对飞书文档编辑这类高度复杂的交互场景时，Browser-use展现出了更强的坚持性和页面操控能力，虽然耗时耗力，但能够沿着既定路径执行。而Agent-browser则更容易“畏难”，试图寻找其他取巧（但在本次测试中无效）的路径，最终导致高成本、零产出的结果。

总结与选型建议

经过从简单到复杂的三轮对比测评，我们可以得出以下结论：

对于简单任务：如单纯的网页信息抓取、内容阅读，Agent-browser效果更好且更节省Token。它轻量、直接的优势在此得以发挥。
对于复杂任务：当任务涉及多步骤交互、复杂表单操作，或需要对页面元素有深入理解时（如爬取深层数据），Browser-use是更可靠的选择。其更好的页面理解能力可以避免“绕弯路”，从总成本和控制力上看可能更优。

我们可以用一个类比来理解：在简单编程场景下，一个“小模型”可能和“大模型”效果差不多，且速度更快、成本更低；但在复杂场景下，“大模型”可能一遍就做对了，而“小模型”需要多次试错和返工，总开销反而更大，效果还不理想。Browser-use和Agent-browser的关系与此类似。

具体选型参考指南：

✅ 适用Agent-browser的场景：
- 简单的网页信息提取（例如：“总结一下这篇文章”、“这个网站是做什么的”）。
- 基础的浏览器交互，如点击明确的按钮、链接。
✅ 适用Browser-use的场景：
- 需要复用现有浏览器登录态的操作。
- 中等至复杂的浏览器自动化流程，如表单填写、多页面数据爬取。
- 任何你认为Agent-browser可能因不理解页面而卡住或执行错误路径的任务。
❌ 两者均不高效的场景：
- 在线文档编辑（如飞书、语雀）：通过浏览器自动化进行富文本编辑效率极低，成本极高。更好的方式是让AI输出Markdown或结构化内容，然后手动粘贴。
- 绕过人机验证码：目前这仍是AI自动化难以独立克服的障碍，需要人工干预。

希望这份详细的对比测评，能帮助你在实际项目中根据具体场景，选择最合适的浏览器自动化工具。

上一篇：嵌入式C编程：深入剖析#define宏定义与typedef类型别名的核心区别
下一篇：Node.js条件分支优化：何时应优先选择switch而非if-else？

Python, 浏览器自动化, ClaudeCode, 软件测试, 工具测评