说实话,我最近被那些重复性的网页操作搞得快要疯掉了——每天上班第一件事,打开七八个网页,填表格、查数据、截图保存……这些破事儿吧,说难也不难,但就是耗时间,而且特别容易点错。
你有没有想过,要是能跟 AI 说一句“帮我把这份简历填到那个招聘网站上”,然后它就自己搞定,那该多爽?
我找了一圈,还真让我发现了一个神器——Browser-Use。这玩意儿就是给 AI 装上“眼睛”和“手”,让大语言模型能像真人一样操控浏览器。
它到底能干啥?
简单说,你可以让 AI 代理自动完成各种网页任务。比如:
- 填表:丢给它一份简历 PDF,让它去求职网站自动填写工作经历、教育背景,它真能一项项搞定。
- 买菜:你跟它说“把我购物清单上的东西加到 Instacart 购物车里”,它自己搜索、添加,还能比价。
- 组装电脑:想配个主机?告诉它预算和需求,它会逛各大硬件网站,把配件一个个加到购物车。
我试了那个 GitHub 仓库的 stars 数量查询例子,几行代码就跑起来了。看着浏览器窗口自己打开、点击、滚动、读取数字……那种感觉,怎么说呢,就像养了个会玩电脑的电子宠物。

上手难吗?真的不难
你别被“AI 代理”这种高大上的词吓到。用 Python 装个包,几行代码就能跑:
from browser_use import Agent, Browser, ChatBrowserUse
import asyncio
async def main():
browser = Browser()
agent = Agent(
task="帮我查一下browser-use项目在GitHub上有多少颗星",
llm=ChatBrowserUse(),
browser=browser,
)
await agent.run()
对,就是这么简单。它背后用的是你本地的 Chrome 浏览器,你可以眼睁睁看着 AI 移动鼠标、点击链接——说实话第一次看的时候我还有点紧张,生怕它给我乱点什么东西(笑)。
我最喜欢的几个功能
CLI 命令行这个必须提。不用写代码,直接终端里敲命令就能操控浏览器:
browser-use open https://github.com
browser-use state # 看看页面上能点啥
browser-use click 5 # 点第5个元素
这感觉就像在跟浏览器对话一样。
还有那个模板生成,uvx browser-use init --template default 一键生成完整的示例代码,对于我这种懒人简直是福音。
开源版 vs 云版,怎么选?
我把区别整理了一下,你一看就明白:
| 对比项 |
开源版(免费) |
云版(付费推荐) |
| 适用场景 |
本地开发、深度定制 |
复杂任务、生产环境 |
| 反检测能力 |
一般 |
强(带代理轮换、验证码破解) |
| 扩展性 |
自己折腾 |
1000+ 集成(Gmail、Slack 等) |
| 学习成本 |
需要懂点代码 |
开箱即用 |
我自己的经验是:先玩开源版,真要做项目或者遇到反爬严重的网站,再考虑上云。毕竟开源版不要钱嘛,先试试水不亏。
说点掏心窝子的
说实话,这种浏览器自动化工具以前也有,比如 Selenium、Puppeteer,但那些都需要你写精确的 CSS 选择器、XPath,网站改个按钮 ID 你的脚本就挂了。Browser-Use 妙就妙在——AI 是真的在“看”网页,它能看到按钮、输入框、链接,然后像人一样理解“该点哪里”。
当然,它也不是万能的。复杂的验证码还是搞不定(云版据说能解,我没试过),有些动态加载的页面也会卡壳。但这已经是目前我看到的最接近“让 AI 替我上网”的方案了。
项目地址:https://github.com/browser-use/browser-use
如果你也想探索更多 AI 自动化场景,欢迎来云栈社区跟其他开发者一起交流。