找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3584

积分

0

好友

468

主题
发表于 2 小时前 | 查看: 3| 回复: 0

平时想让 Claude Code 帮忙抓取某个网站的数据,本以为是一件再简单不过的小事。

结果没操作几步,就迎面撞上了 Cloudflare 的人机验证,或者直接被目标站点识别为机器人操作,访问请求被无情拦截。

虽然这两年 AI 智能体(Agent)越来越聪明,既能写代码,也能规划复杂任务。可真要让它们去操控浏览器,表现依然显得有点“笨拙”。

说到底,现在市面上多数自动化工具,底层依赖的还是 Playwright、Puppeteer 这套老旧的框架。

BrowserAct

直到最近在 GitHub 上闲逛时,我偶然瞥见一个名为 BrowserAct 的项目。它自称为“专为 AI 而生的浏览器”,并提供了两个异常实用的技能插件。

咱们先聊聊第一个 browser-act 技能,它相当于智能体操控浏览器的双手,采用三层递进的对抗策略。

最外层,它依靠指纹伪装、TLS 轮换和代理切换机制,让大部分反爬拦截压根就不会被触发。要是真不走运碰到了验证码挑战,你只用下达一条 solve-captcha 指令,系统便会自动尝试解决。如果连系统都搞不定,那就无缝切换到人工介入模式,remote-assist 会生成一个临时链接,你用手机就能远程接管并完成验证,验证通过后Agent会自动接着先前的流程继续运行。

抓取亚马逊畅销榜数据截图

除此之外,针对不同的实操场景,它还配备了三种差异化的浏览器模式:

  • 如果你想复用本地 Chrome 里已登录的会话状态,直接将 Cookie 信息导入即可。
  • 如果你打算批量抓取公开数据,那开启隐身模式就好了,每次运行都会生成全新指纹,跑完任务片叶不沾身。
  • 如果你需要登录多个账号,还得让它们同时在线执行任务,固定身份模式就派上了用场。它自带稳定的浏览器指纹,能大幅降低触碰风控红线的概率。

多账号并行操作时,最怕的就是被风控系统判定为关联账号。为此,BrowserAct 给每个浏览器实例都分配了独立的 Cookie、指纹和代理IP,目标站点根本没法把它们关联起来。

专为智能体设计的功能特点

传统自动化工具一出手就是甩出一大坨混乱的 HTML 源码,Token 消耗速度堪称恐怖,几分钟就烧掉几十美金。反观 BrowserAct,它把网页内容转换成了索引化的精简文本,这种做法能显著压降 Token 消耗。

操作层面也相当省心。通过 state 指令列出当前页面上所有可交互的元素,然后直接下达 click 3input 2 这样的指令就行,完全不用费劲去解析复杂的 DOM 树。

在安全把控上,它也做得比较周全。像创建或销毁浏览器实例、导入配置文件、修改代理参数这类敏感操作,都必须获得我们的明确点头。更为关键的是,之前已经批准过的授权不会顺延到新会话里,有效防止了权限滥用。

打破网络限制的核心优势

browser-act 主要负责当下浏览器的即时自动化操控,但现实中很多采集任务其实是重复性的。

为了解决这个痛点,项目方提供了另一个技能,这便是 skill-forge。它要做的就是让智能体先把一个网站彻底“摸一遍”,自动探寻背后的 API 接口和数据规律,然后把研究结果打包成一份可直接部署的复用技能。

特别值得一提的是,这个过程只需要“摸一遍”就可以了。往后再执行类似任务时,就无需每次重新探路,成百上千条数据都可以沿着同一条稳定路径高效抓取。

BrowserAct Skill Forge功能概述

不仅节省大量时间,也少走了很多弯路。其应用场景同样颇为广泛,凡是需要反复、定期从同一个站点大批量获取数据的活儿,它都能稳稳接住。比如盯电商平台的商品详情与评论、追踪特定平台的更新、批量扒视频字幕,或者搞线索采集等等。

团队还备好了 30 多个现成的解决方案,拿来直接就能跑通,覆盖了 Amazon、Google Maps、YouTube、Reddit 等几十家主流电商与社交平台。

Skill Forge支持的网站类型示例

安装过程毫不费力,走的是标准的 Skill 插件路线。无论是 Claude Code、Cursor、Codex,还是 Gemini CLI,统统支持。你只需要把代码仓库的链接丢给智能体,让它自行读取、完成安装,再跑通测试用例就大功告成了。

要是想快速试水,只需一条 stealth-extract 命令外加目标网址,零配置就能抓到受保护页面的内容。

AI技能安装与运行流程截图

有一点必须提醒大家。我们把浏览器的完整操控权交给智能体,效率虽然噌噌上来了,但也伴随着不容小视的风险。刚开始上手的时候,强烈建议先在隔离的测试环境里跑一跑,记得盯住那道需要确认高级权限的安全闸门。

往远了看,智能体的能力瓶颈正从“脑子”(思考推理)悄悄转移到“手”(执行操控)上。模型能力无疑会越来越强大,可一旦落到干实事儿的层面,经常卡脖子的恰恰就是执行这一层。谁能先把这层给啃下来,谁就接通了智能体落地实际生产力的最后一公里。而在 开源实战 领域,BrowserAct 选择把这份能力彻底开源,无异于将这项核心技能,重新交回到全球开发者自己的手中。

GitHub 项目地址:https://github.com/browser-act/skills




上一篇:前端加密逆向实战:AES解密与水平越权漏洞挖掘全流程
下一篇:微软 Build 2026 发布 Coreutils:Windows 原生运行 75+ Linux 命令,Rust 重写
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-6 20:47 , Processed in 0.750513 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表