云栈社区»论坛 › 站务中心「 Forum Service 」 › 告别Playwright？这个开源AI技能让智能体也能轻松操控真实浏览器 ...

4045 积分	0 好友	523 主题

发消息

告别Playwright？这个开源AI技能让智能体也能轻松操控真实浏览器

发表于 2026-6-6 17:52:44 | 查看: 277| 回复: 0

平时想让 Claude Code 帮忙抓取某个网站的数据，本以为是一件再简单不过的小事。

结果没操作几步，就迎面撞上了 Cloudflare 的人机验证，或者直接被目标站点识别为机器人操作，访问请求被无情拦截。

虽然这两年 AI 智能体（Agent）越来越聪明，既能写代码，也能规划复杂任务。可真要让它们去操控浏览器，表现依然显得有点“笨拙”。

说到底，现在市面上多数自动化工具，底层依赖的还是 Playwright、Puppeteer 这套老旧的框架。

BrowserAct

直到最近在 GitHub 上闲逛时，我偶然瞥见一个名为 BrowserAct 的项目。它自称为“专为 AI 而生的浏览器”，并提供了两个异常实用的技能插件。

咱们先聊聊第一个 browser-act 技能，它相当于智能体操控浏览器的双手，采用三层递进的对抗策略。

最外层，它依靠指纹伪装、TLS 轮换和代理切换机制，让大部分反爬拦截压根就不会被触发。要是真不走运碰到了验证码挑战，你只用下达一条 solve-captcha 指令，系统便会自动尝试解决。如果连系统都搞不定，那就无缝切换到人工介入模式，remote-assist 会生成一个临时链接，你用手机就能远程接管并完成验证，验证通过后Agent会自动接着先前的流程继续运行。

抓取亚马逊畅销榜数据截图

除此之外，针对不同的实操场景，它还配备了三种差异化的浏览器模式：

如果你想复用本地 Chrome 里已登录的会话状态，直接将 Cookie 信息导入即可。
如果你打算批量抓取公开数据，那开启隐身模式就好了，每次运行都会生成全新指纹，跑完任务片叶不沾身。
如果你需要登录多个账号，还得让它们同时在线执行任务，固定身份模式就派上了用场。它自带稳定的浏览器指纹，能大幅降低触碰风控红线的概率。

多账号并行操作时，最怕的就是被风控系统判定为关联账号。为此，BrowserAct 给每个浏览器实例都分配了独立的 Cookie、指纹和代理IP，目标站点根本没法把它们关联起来。

专为智能体设计的功能特点

传统自动化工具一出手就是甩出一大坨混乱的 HTML 源码，Token 消耗速度堪称恐怖，几分钟就烧掉几十美金。反观 BrowserAct，它把网页内容转换成了索引化的精简文本，这种做法能显著压降 Token 消耗。

操作层面也相当省心。通过 state 指令列出当前页面上所有可交互的元素，然后直接下达 click 3、input 2 这样的指令就行，完全不用费劲去解析复杂的 DOM 树。

在安全把控上，它也做得比较周全。像创建或销毁浏览器实例、导入配置文件、修改代理参数这类敏感操作，都必须获得我们的明确点头。更为关键的是，之前已经批准过的授权不会顺延到新会话里，有效防止了权限滥用。

打破网络限制的核心优势

browser-act 主要负责当下浏览器的即时自动化操控，但现实中很多采集任务其实是重复性的。

为了解决这个痛点，项目方提供了另一个技能，这便是 skill-forge。它要做的就是让智能体先把一个网站彻底“摸一遍”，自动探寻背后的 API 接口和数据规律，然后把研究结果打包成一份可直接部署的复用技能。

特别值得一提的是，这个过程只需要“摸一遍”就可以了。往后再执行类似任务时，就无需每次重新探路，成百上千条数据都可以沿着同一条稳定路径高效抓取。

BrowserAct Skill Forge功能概述

不仅节省大量时间，也少走了很多弯路。其应用场景同样颇为广泛，凡是需要反复、定期从同一个站点大批量获取数据的活儿，它都能稳稳接住。比如盯电商平台的商品详情与评论、追踪特定平台的更新、批量扒视频字幕，或者搞线索采集等等。

团队还备好了 30 多个现成的解决方案，拿来直接就能跑通，覆盖了 Amazon、Google Maps、YouTube、Reddit 等几十家主流电商与社交平台。

Skill Forge支持的网站类型示例

安装过程毫不费力，走的是标准的 Skill 插件路线。无论是 Claude Code、Cursor、Codex，还是 Gemini CLI，统统支持。你只需要把代码仓库的链接丢给智能体，让它自行读取、完成安装，再跑通测试用例就大功告成了。

要是想快速试水，只需一条 stealth-extract 命令外加目标网址，零配置就能抓到受保护页面的内容。

AI技能安装与运行流程截图

有一点必须提醒大家。我们把浏览器的完整操控权交给智能体，效率虽然噌噌上来了，但也伴随着不容小视的风险。刚开始上手的时候，强烈建议先在隔离的测试环境里跑一跑，记得盯住那道需要确认高级权限的安全闸门。

往远了看，智能体的能力瓶颈正从“脑子”（思考推理）悄悄转移到“手”（执行操控）上。模型能力无疑会越来越强大，可一旦落到干实事儿的层面，经常卡脖子的恰恰就是执行这一层。谁能先把这层给啃下来，谁就接通了智能体落地实际生产力的最后一公里。而在开源实战领域，BrowserAct 选择把这份能力彻底开源，无异于将这项核心技能，重新交回到全球开发者自己的手中。

GitHub 项目地址：https://github.com/browser-act/skills

上一篇：前端加密逆向实战：AES解密与水平越权漏洞挖掘全流程
下一篇：微软 Build 2026 发布 Coreutils：Windows 原生运行 75+ Linux 命令，Rust 重写

BrowserAct, Web自动化, 网页抓取, AI智能体, 反爬虫对抗

告别Playwright？这个开源AI技能让智能体也能轻松操控真实浏览器

相关帖子