找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3917

积分

0

好友

521

主题
发表于 昨天 22:59 | 查看: 5| 回复: 0

评估浏览器自动化项目时,我习惯跳过宣传词,先看它怎么处理最让人头疼的那几件事:验证码、账号串味、Cookie 污染、跑一半让人接锅。

BrowserAct Skills 抓的就是这些脏活。

它不是又包一层 Playwright 然后喊“让 Agent 上网”。README 里写得很直:给 AI Agent 用的浏览器自动化 CLI,重点是穿过常见 anti-bot wall、卡住时把控制权交给人、并行跑任务时隔离不同浏览器会话。仓库目前开源在 browser-act/skills,MIT 协议,主仓库显示 2.4k stars。

最扎眼的是三层兜底。

第一层是环境层,指纹、TLS、代理这些先处理掉;第二层是执行层,遇到验证码之类的障碍,交给专门命令处理;第三层更现实:AI 实在过不去,就生成一个远程接管链接,人打开以后手动处理,完事 Agent 继续跑。

这点我反而挺喜欢。

以前做 Demo 或小工具,最烦的不是“能不能打开网页”,而是跑到第 37 条数据突然 429、验证码、登录态失效,日志里还看不出是谁把 session 搞脏了。Agent 在这种地方特别脆,看起来会点按钮,实际一撞墙就开始原地乱试。

BrowserAct 另一个点是并行隔离。多个任务一起跑时,每个浏览器的 Cookie、指纹、代理能分开,避免不同账号互相串。这个对批量数据任务很关键,不然你以为在并发,网站那边看起来像一个人开了十几个马甲在乱跳。

先别急着吹。

这类工具再顺,也不等于可以无视网站规则。权限、频率、账号安全、合规边界,最后还是使用者自己背锅。尤其是“自动处理验证码”这种能力,写进生产流之前最好先问一句:这个数据你到底有没有权抓?

我更看重它给大模型省 token 的设计。传统 HTML 塞给模型,动不动一坨废标签;JSON 也不一定省。BrowserAct 用 indexed text,让 Agent 看编号、点编号、填编号,不必解析整棵 DOM。README 里还提到 click 3input 2 这种索引式交互。

还有 Skill Forge,思路也很直接:让 Agent 先探索一次网站结构,生成一个可复用 Skill,后面批量跑就别每次重新摸路。

这东西适合谁?用 Claude Code、Cursor、Codex 之类工具做浏览器自动化,经常卡在登录、验证码、页面抽取、批量任务隔离的人,可以扫一眼。

我会拿它试试那些“合法、有权限、但网页特别难伺候”的数据流程。

GitHub地址:github.com/browser-act/skills

如果你也在折腾浏览器自动化,不妨来 云栈社区 和众多开发者聊聊踩坑心得。




上一篇:PCBA板带飞线能否交付客户?解读IPC-7711/21跳线标准与硬件可靠性
下一篇:品牌做GEO先别搜自己!多数人第一步就踩坑
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-13 04:01 , Processed in 0.632682 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表