linuxx

336 积分	0 好友	41 主题

发消息

[Python] Google Computer Use Preview：让AI自己操作浏览器完成任务

发表于 2025-10-9 23:52:26 | 查看: 45| 回复: 0

你有没有想过，有一天只需对AI说一句"帮我查最新的AI论文并整理成表格"，它就能自己打开浏览器、搜索、点击、复制粘贴，最后把结果交给你？Google刚开源的Computer Use Preview项目，正在把这个场景变成现实。

一、这是什么？

Computer Use Preview是Google推出的浏览器自动化代理框架，核心能力是让Gemini模型"看懂"网页、"理解"任务、"操作"浏览器。

你只需用自然语言下达指令，比如：

"打开Google搜索'最新AI新闻'并截图前三条"
"进入GitHub trending页面，找到Python分类第一名项目"
"帮我在某电商网站比较三款笔记本的价格"

AI会像人类一样，一步步完成点击、输入、滚动、截图等操作。

二、它和传统RPA有什么不同？

传统RPA（机器人流程自动化）依赖固定的DOM选择器和脚本，页面稍有改版就失效。而Computer Use基于视觉+语义理解：

维度	传统RPA	Computer Use
适应性	页面变化即失效	能"看图识意"应对变化
编程门槛	需要写脚本/录制流程	自然语言即可
泛化能力	一个任务一套代码	同一模型处理多种任务

简单说：RPA是"照着地图走"，Computer Use是"自己看着路走"。

三、技术原理：感知-推理-执行的闭环

整个系统分三层：

1. 感知层

截取当前页面截图
获取URL、标题、DOM结构等上下文
可选：高亮鼠标位置（便于调试）

2. 推理层（核心）

将用户目标+当前状态输入Gemini模型
模型输出下一步动作：点击(x,y)、输入文本、等待加载、滚动等
如果失败，将错误信息反馈给模型重新规划

3. 执行层

Playwright模式：本地控制Chrome浏览器
Browserbase模式：连接云端浏览器（适合长任务/并行）

这个"观察→思考→行动→再观察"的循环会持续进行，直到任务完成或达到上限。

四、5分钟上手实战

环境准备

# 克隆项目
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

# 安装依赖
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
playwright install chrome

配置API密钥

export GEMINI_API_KEY="你的密钥"

运行第一个任务

python main.py \
  --query "打开Google搜索'Claude AI'并截图" \
  --env playwright \
  --highlight_mouse

几秒后，你会看到浏览器自动打开、搜索、完成任务，终端输出每一步的操作日志。

五、适合哪些场景？

✅ 推荐场景

数据采集：多网站信息聚合、价格监控
测试自动化：用自然语言写UI测试用例
研究助理：自动检索、对比、总结文献
简单运营：批量发帖、表单填写

⚠️ 暂不适合

需要强安全保障的生产环境（目前是预览版）
复杂的多步骤事务（需要二次开发技能库）
对延迟敏感的实时任务（每步都需模型推理）

六、二次开发的想象空间

这个项目是"最小可行骨架"，你可以在此基础上扩展：

技能库：把"登录""翻页""表单填写"封装成可重用模块
工具增强：接入OCR、DOM解析器、语义检索
记忆系统：保存历史轨迹，支持回放和回归测试
安全护栏：域名白名单、敏感操作拦截、日志脱敏

七、成本与局限

模型调用成本：每步操作可能触发一次Gemini推理，长任务需控制步数
稳定性：遇到验证码、弹窗、加载慢等情况需要更健壮的策略
隐私合规：操作涉及真实网站时，需遵循各平台服务条款

结语

Computer Use Preview不是完美的生产工具，但它展示了一个清晰的方向：AI不再只是"回答问题"，而是开始"执行任务"。从对话到行动，从理解到改造，这正是《异或Lambda》一直关注的命题——今天的科幻，明天的日常。

如果你是开发者，不妨clone下来跑一遍；如果你是产品经理，可以思考如何把它嵌入你的业务流程。AI改造世界，正在进行时。

📌 关注《异或Lambda》
主打AI与未来生产力，解放生产力、创造未来、改造世界。持续追踪前沿AI项目与落地实践。

🔗 项目地址
GitHub：https://github.com/google/computer-use-preview

🔖 相关标签：#ComputerUsePreview #Github #Gemini #浏览器自动化 #AI代理 #开源项目 #生产力工具

ComputerUsePreview, Gemini, 浏览器自动化, AI代理, 生产力工具