找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2990

积分

0

好友

413

主题
发表于 14 小时前 | 查看: 0| 回复: 0

最近,一个观点引起了我的注意:如果需要完成严肃的浏览器自动化工作,最佳的浏览器工具是Browser-use,而非OpenClaw自带工具、Playwright MCP或Agent Browser。

严肃浏览器自动化工作工具推荐

之前我们体验过几期Agent-browser,它是一款非常轻量、适合集成在Agent CLI中的浏览器工具。搭配Skill使用,能让AI直接操作浏览器。那么,作为同样具备浏览器操作能力的Browser-use,它的表现又如何呢?今天我们就通过详细的横向测评来一探究竟。

安装与准备

首先,我们需要安装Browser-use这个Skill。可以前往Skill Hub(https://www.skill-cn.com/skill/51)进行安装,既可以通过命令行指令安装,也可以直接下载ZIP包。

Skill Hub中的Browser-use技能页面

本次我们将使用Claude Code进行实战演示。安装完成后,在指定目录下可以看到技能已加载成功。

Claude Code中成功加载技能

技能加载完毕,接下来就正式进入测评环节。

核心亮点:复用用户浏览器与登录态

无论是Agent-browser、Chrome MCP还是Playwright MCP,处理用户登录态始终是一个令人头疼的问题。因为它们通常会启动一个全新的浏览器实例,而这个新浏览器是不带任何已有登录状态的,这就导致在需要操作已登录页面的场景下十分棘手。之前为了在Agent-browser中解决登录态问题,也费了不少功夫,而Chrome和Playwright MCP甚至需要额外安装浏览器插件。

Browser-use的解决之道在于,它直接支持调用用户本机已有的浏览器,并复用浏览器中现有的所有登录状态。

我们在Claude Code中触发Browser-use技能,并给出指令:“用我的浏览器打开[飞书链接],看看里面是什么内容”。

触发Browser-use技能打开飞书链接

这时,Browser-use会询问我们希望使用哪个Chrome用户配置文件(Profile),通常选择默认的即可。

Browser-use提示选择Chrome配置文件

操作完成后可以看到,Browser-use直接读取到了飞书文档内的全部内容,期间没有进行任何登录操作,因为它直接复用了我们本地浏览器中已登录飞书的状态。

成功获取飞书文档内容

无需额外配置即可使用现有登录态,这是Browser-use在易用性上的一个显著优势。

第一轮PK:简单任务 - 网页信息读取

我们首先测试两者在“普通网页信息读取”这类简单任务上的表现。

测试Browser-use
指令:“打开https://www.skill-cn.com,看看这个站点是做什么的”。

使用Browser-use技能打开指定网站

对于这种简单的信息提取任务,Browser-use毫无压力,很快就给出了准确详尽的答案。

Browser-use读取Skill Hub网站内容的结果

我们重点关注一下此次操作的Token消耗。一次普通的网站信息读取,Browser-use花费了 $1.42

Browser-use执行简单任务的成本统计

测试Agent-browser
使用完全相同的指令。

使用Agent-browser技能打开指定网站

结果方面两者相当。Token消耗为 $0.76

Agent-browser执行简单任务的成本统计

第一轮结论
对于“普通网页信息提取”这类简单任务,Browser-use和Agent-browser都能准确完成。但在成本上,Agent-browser的Token消耗明显低于Browser-use

第二轮PK:中等任务 - 多步骤网页操作

我们提升任务复杂度,测试一个需要多步交互的场景:打开京东首页,完成登录,并提取历史订单信息。

测试Browser-use
指令包含登录方式和手机号(验证码需人工协助)。

使用Browser-use登录京东并查询订单

任务顺利完成,成功登录并获取了近三个月的订单汇总数据。

Browser-use成功获取的京东订单信息

此轮操作的Token消耗为 $3.76

Browser-use执行中等任务的成本统计

测试Agent-browser
使用相同指令测试Agent-browser。这里注意到一个细节:Agent-browser并没有直接在首页弹出的登录弹窗中操作,而是关闭了弹窗,转而点击页面右上角的登录入口,跳转到了独立的登录页面进行登录(验证码同样需人工协助)。

Agent-browser在京东遇到的登录界面

最终虽然也拿到了订单信息,但Token消耗高达 $5.23

Agent-browser执行中等任务的成本统计

这个结果有些反直觉,因为Agent-browser一向以轻量和低消耗著称。分析原因,很可能是由于其未能准确识别首页的登录弹窗元素,导致操作路径绕了远路,从而增加了Token消耗。

第二轮结论
在需要理解页面元素并进行多步交互的中等复杂度任务中,Browser-use对浏览器页面的语义理解能力更强,执行路径更直接,在此次测试中反而取得了更低的成本。

第三轮PK:复杂任务 - 飞书文档在线编辑

我们挑战一个公认的高难度场景:在飞书网页版中在线编辑文档,并额外要求“格式精美,使用高亮块等排版工具”。

使用Browser-use编辑飞书文档的指令

测试Browser-use
Browser-use开始了自动操作,尝试在富文本编辑器中寻找并插入“高亮块”等功能。

Browser-use尝试在飞书编辑器中操作

经过一番自动化操作,它成功创建了文档,并写入了带有标题和基本格式的开头部分。

Browser-use编辑飞书文档的中间结果

Browser-use在飞书中创建的文档标题

达到这一结果,Browser-use总共消耗了约 35分钟,成本$9.05。考虑到任务的复杂性,这个结果已经超出了预期。

Browser-use执行复杂任务的成本统计

测试Agent-browser
Agent-browser在开始阶段表现正常,但很快它似乎“意识到”通过浏览器自动化逐字输入和操作富文本菜单的效率极低。

Agent-browser试图改用飞书API来逃避浏览器操作

它开始提议改用飞书开放API来直接写入内容,这相当于“逃避”了我们设定的浏览器自动化测试目标。

表达困惑的表情包

当我们强制要求它继续使用浏览器操作时,它最终只是在编辑器中留下了空白。

Agent-browser最终在飞书文档中留下的空白编辑界面

最终,Agent-browser消耗了约 30分钟,成本$16.57,且未能有效完成文档编辑任务。

Agent-browser执行复杂任务的成本统计

第三轮结论
在面对飞书文档编辑这类高度复杂的交互场景时,Browser-use展现出了更强的坚持性和页面操控能力,虽然耗时耗力,但能够沿着既定路径执行。而Agent-browser则更容易“畏难”,试图寻找其他取巧(但在本次测试中无效)的路径,最终导致高成本、零产出的结果。

总结与选型建议

经过从简单到复杂的三轮对比测评,我们可以得出以下结论:

  1. 对于简单任务:如单纯的网页信息抓取、内容阅读,Agent-browser效果更好且更节省Token。它轻量、直接的优势在此得以发挥。
  2. 对于复杂任务:当任务涉及多步骤交互、复杂表单操作,或需要对页面元素有深入理解时(如爬取深层数据),Browser-use是更可靠的选择。其更好的页面理解能力可以避免“绕弯路”,从总成本和控制力上看可能更优。

我们可以用一个类比来理解:在简单编程场景下,一个“小模型”可能和“大模型”效果差不多,且速度更快、成本更低;但在复杂场景下,“大模型”可能一遍就做对了,而“小模型”需要多次试错和返工,总开销反而更大,效果还不理想。Browser-use和Agent-browser的关系与此类似。

具体选型参考指南:

  • ✅ 适用Agent-browser的场景

    • 简单的网页信息提取(例如:“总结一下这篇文章”、“这个网站是做什么的”)。
    • 基础的浏览器交互,如点击明确的按钮、链接。
  • ✅ 适用Browser-use的场景

    • 需要复用现有浏览器登录态的操作。
    • 中等至复杂的浏览器自动化流程,如表单填写、多页面数据爬取。
    • 任何你认为Agent-browser可能因不理解页面而卡住或执行错误路径的任务。
  • ❌ 两者均不高效的场景

    • 在线文档编辑(如飞书、语雀):通过浏览器自动化进行富文本编辑效率极低,成本极高。更好的方式是让AI输出Markdown或结构化内容,然后手动粘贴。
    • 绕过人机验证码:目前这仍是AI自动化难以独立克服的障碍,需要人工干预。

希望这份详细的对比测评,能帮助你在实际项目中根据具体场景,选择最合适的浏览器自动化工具。




上一篇:嵌入式C编程:深入剖析#define宏定义与typedef类型别名的核心区别
下一篇:Node.js条件分支优化:何时应优先选择switch而非if-else?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 20:30 , Processed in 0.424480 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表