3917 积分	0 好友	521 主题

发消息

BrowserAct Skills 开源：AI Agent 突破人机验证与 Cookie 隔离的三层防线

发表于昨天 22:59 | 查看: 5| 回复: 0

评估浏览器自动化项目时，我习惯跳过宣传词，先看它怎么处理最让人头疼的那几件事：验证码、账号串味、Cookie 污染、跑一半让人接锅。

BrowserAct Skills 抓的就是这些脏活。

它不是又包一层 Playwright 然后喊“让 Agent 上网”。README 里写得很直：给 AI Agent 用的浏览器自动化 CLI，重点是穿过常见 anti-bot wall、卡住时把控制权交给人、并行跑任务时隔离不同浏览器会话。仓库目前开源在 browser-act/skills，MIT 协议，主仓库显示 2.4k stars。

最扎眼的是三层兜底。

第一层是环境层，指纹、TLS、代理这些先处理掉；第二层是执行层，遇到验证码之类的障碍，交给专门命令处理；第三层更现实：AI 实在过不去，就生成一个远程接管链接，人打开以后手动处理，完事 Agent 继续跑。

这点我反而挺喜欢。

以前做 Demo 或小工具，最烦的不是“能不能打开网页”，而是跑到第 37 条数据突然 429、验证码、登录态失效，日志里还看不出是谁把 session 搞脏了。Agent 在这种地方特别脆，看起来会点按钮，实际一撞墙就开始原地乱试。

BrowserAct 另一个点是并行隔离。多个任务一起跑时，每个浏览器的 Cookie、指纹、代理能分开，避免不同账号互相串。这个对批量数据任务很关键，不然你以为在并发，网站那边看起来像一个人开了十几个马甲在乱跳。

先别急着吹。

这类工具再顺，也不等于可以无视网站规则。权限、频率、账号安全、合规边界，最后还是使用者自己背锅。尤其是“自动处理验证码”这种能力，写进生产流之前最好先问一句：这个数据你到底有没有权抓？

我更看重它给大模型省 token 的设计。传统 HTML 塞给模型，动不动一坨废标签；JSON 也不一定省。BrowserAct 用 indexed text，让 Agent 看编号、点编号、填编号，不必解析整棵 DOM。README 里还提到 click 3、input 2 这种索引式交互。

还有 Skill Forge，思路也很直接：让 Agent 先探索一次网站结构，生成一个可复用 Skill，后面批量跑就别每次重新摸路。

这东西适合谁？用 Claude Code、Cursor、Codex 之类工具做浏览器自动化，经常卡在登录、验证码、页面抽取、批量任务隔离的人，可以扫一眼。

我会拿它试试那些“合法、有权限、但网页特别难伺候”的数据流程。

GitHub地址：github.com/browser-act/skills

如果你也在折腾浏览器自动化，不妨来云栈社区和众多开发者聊聊踩坑心得。

上一篇：PCBA板带飞线能否交付客户？解读IPC-7711/21跳线标准与硬件可靠性
下一篇：品牌做GEO先别搜自己！多数人第一步就踩坑

BrowserAct, 人工智能代理, 浏览器自动化, 人机验证, 会话隔离

BrowserAct Skills 开源：AI Agent 突破人机验证与 Cookie 隔离的三层防线

相关帖子