你有没有想过,有一天只需对AI说一句"帮我查最新的AI论文并整理成表格",它就能自己打开浏览器、搜索、点击、复制粘贴,最后把结果交给你?Google刚开源的Computer Use Preview项目,正在把这个场景变成现实。
一、这是什么?
Computer Use Preview是Google推出的浏览器自动化代理框架,核心能力是让Gemini模型"看懂"网页、"理解"任务、"操作"浏览器。
你只需用自然语言下达指令,比如:
- "打开Google搜索'最新AI新闻'并截图前三条"
- "进入GitHub trending页面,找到Python分类第一名项目"
- "帮我在某电商网站比较三款笔记本的价格"
AI会像人类一样,一步步完成点击、输入、滚动、截图等操作。
二、它和传统RPA有什么不同?
传统RPA(机器人流程自动化)依赖固定的DOM选择器和脚本,页面稍有改版就失效。而Computer Use基于视觉+语义理解:
维度 |
传统RPA |
Computer Use |
适应性 |
页面变化即失效 |
能"看图识意"应对变化 |
编程门槛 |
需要写脚本/录制流程 |
自然语言即可 |
泛化能力 |
一个任务一套代码 |
同一模型处理多种任务 |
简单说:RPA是"照着地图走",Computer Use是"自己看着路走"。
三、技术原理:感知-推理-执行的闭环
整个系统分三层:
1. 感知层
- 截取当前页面截图
- 获取URL、标题、DOM结构等上下文
- 可选:高亮鼠标位置(便于调试)
2. 推理层(核心)
- 将用户目标+当前状态输入Gemini模型
- 模型输出下一步动作:点击(x,y)、输入文本、等待加载、滚动等
- 如果失败,将错误信息反馈给模型重新规划
3. 执行层
- Playwright模式:本地控制Chrome浏览器
- Browserbase模式:连接云端浏览器(适合长任务/并行)
这个"观察→思考→行动→再观察"的循环会持续进行,直到任务完成或达到上限。
四、5分钟上手实战
环境准备
# 克隆项目
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview
# 安装依赖
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
playwright install chrome
配置API密钥
export GEMINI_API_KEY="你的密钥"
运行第一个任务
python main.py \
--query "打开Google搜索'Claude AI'并截图" \
--env playwright \
--highlight_mouse
几秒后,你会看到浏览器自动打开、搜索、完成任务,终端输出每一步的操作日志。
五、适合哪些场景?
✅ 推荐场景
- 数据采集:多网站信息聚合、价格监控
- 测试自动化:用自然语言写UI测试用例
- 研究助理:自动检索、对比、总结文献
- 简单运营:批量发帖、表单填写
⚠️ 暂不适合
- 需要强安全保障的生产环境(目前是预览版)
- 复杂的多步骤事务(需要二次开发技能库)
- 对延迟敏感的实时任务(每步都需模型推理)
六、二次开发的想象空间
这个项目是"最小可行骨架",你可以在此基础上扩展:
- 技能库:把"登录""翻页""表单填写"封装成可重用模块
- 工具增强:接入OCR、DOM解析器、语义检索
- 记忆系统:保存历史轨迹,支持回放和回归测试
- 安全护栏:域名白名单、敏感操作拦截、日志脱敏
七、成本与局限
- 模型调用成本:每步操作可能触发一次Gemini推理,长任务需控制步数
- 稳定性:遇到验证码、弹窗、加载慢等情况需要更健壮的策略
- 隐私合规:操作涉及真实网站时,需遵循各平台服务条款
结语
Computer Use Preview不是完美的生产工具,但它展示了一个清晰的方向:AI不再只是"回答问题",而是开始"执行任务"。从对话到行动,从理解到改造,这正是《异或Lambda》一直关注的命题——今天的科幻,明天的日常。
如果你是开发者,不妨clone下来跑一遍;如果你是产品经理,可以思考如何把它嵌入你的业务流程。AI改造世界,正在进行时。
📌 关注《异或Lambda》
主打AI与未来生产力,解放生产力、创造未来、改造世界。持续追踪前沿AI项目与落地实践。
🔗 项目地址
GitHub:https://github.com/google/computer-use-preview
🔖 相关标签:#ComputerUsePreview #Github #Gemini #浏览器自动化 #AI代理 #开源项目 #生产力工具
|