找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

180

积分

0

好友

21

主题
发表于 2025-10-9 23:52:26 | 查看: 8| 回复: 0

你有没有想过,有一天只需对AI说一句"帮我查最新的AI论文并整理成表格",它就能自己打开浏览器、搜索、点击、复制粘贴,最后把结果交给你?Google刚开源的Computer Use Preview项目,正在把这个场景变成现实。


一、这是什么?

Computer Use Preview是Google推出的浏览器自动化代理框架,核心能力是让Gemini模型"看懂"网页、"理解"任务、"操作"浏览器

你只需用自然语言下达指令,比如:

  • "打开Google搜索'最新AI新闻'并截图前三条"
  • "进入GitHub trending页面,找到Python分类第一名项目"
  • "帮我在某电商网站比较三款笔记本的价格"

AI会像人类一样,一步步完成点击、输入、滚动、截图等操作。

二、它和传统RPA有什么不同?

传统RPA(机器人流程自动化)依赖固定的DOM选择器和脚本,页面稍有改版就失效。而Computer Use基于视觉+语义理解

维度 传统RPA Computer Use
适应性 页面变化即失效 能"看图识意"应对变化
编程门槛 需要写脚本/录制流程 自然语言即可
泛化能力 一个任务一套代码 同一模型处理多种任务

简单说:RPA是"照着地图走",Computer Use是"自己看着路走"

三、技术原理:感知-推理-执行的闭环

整个系统分三层:

1. 感知层

  • 截取当前页面截图
  • 获取URL、标题、DOM结构等上下文
  • 可选:高亮鼠标位置(便于调试)

2. 推理层(核心)

  • 将用户目标+当前状态输入Gemini模型
  • 模型输出下一步动作:点击(x,y)、输入文本、等待加载、滚动等
  • 如果失败,将错误信息反馈给模型重新规划

3. 执行层

  • Playwright模式:本地控制Chrome浏览器
  • Browserbase模式:连接云端浏览器(适合长任务/并行)

这个"观察→思考→行动→再观察"的循环会持续进行,直到任务完成或达到上限。

四、5分钟上手实战

环境准备

# 克隆项目
git clone https://github.com/google/computer-use-preview.git
cd computer-use-preview

# 安装依赖
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
playwright install chrome

配置API密钥

export GEMINI_API_KEY="你的密钥"

运行第一个任务

python main.py \
  --query "打开Google搜索'Claude AI'并截图" \
  --env playwright \
  --highlight_mouse

几秒后,你会看到浏览器自动打开、搜索、完成任务,终端输出每一步的操作日志。

五、适合哪些场景?

✅ 推荐场景

  • 数据采集:多网站信息聚合、价格监控
  • 测试自动化:用自然语言写UI测试用例
  • 研究助理:自动检索、对比、总结文献
  • 简单运营:批量发帖、表单填写

⚠️ 暂不适合

  • 需要强安全保障的生产环境(目前是预览版)
  • 复杂的多步骤事务(需要二次开发技能库)
  • 对延迟敏感的实时任务(每步都需模型推理)

六、二次开发的想象空间

这个项目是"最小可行骨架",你可以在此基础上扩展:

  1. 技能库:把"登录""翻页""表单填写"封装成可重用模块
  2. 工具增强:接入OCR、DOM解析器、语义检索
  3. 记忆系统:保存历史轨迹,支持回放和回归测试
  4. 安全护栏:域名白名单、敏感操作拦截、日志脱敏

七、成本与局限

  • 模型调用成本:每步操作可能触发一次Gemini推理,长任务需控制步数
  • 稳定性:遇到验证码、弹窗、加载慢等情况需要更健壮的策略
  • 隐私合规:操作涉及真实网站时,需遵循各平台服务条款

结语

Computer Use Preview不是完美的生产工具,但它展示了一个清晰的方向:AI不再只是"回答问题",而是开始"执行任务"。从对话到行动,从理解到改造,这正是《异或Lambda》一直关注的命题——今天的科幻,明天的日常

如果你是开发者,不妨clone下来跑一遍;如果你是产品经理,可以思考如何把它嵌入你的业务流程。AI改造世界,正在进行时。


📌 关注《异或Lambda》
主打AI与未来生产力,解放生产力、创造未来、改造世界。持续追踪前沿AI项目与落地实践。


🔗 项目地址
GitHub:https://github.com/google/computer-use-preview

🔖 相关标签:#ComputerUsePreview #Github #Gemini #浏览器自动化 #AI代理 #开源项目 #生产力工具

您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|云栈社区(YunPan.Plus) ( 苏ICP备2022046150号-2 )

GMT+8, 2025-10-18 10:49 , Processed in 0.055911 second(s), 39 queries .

Powered by Discuz! X3.5

© 2025-2025 CloudStack.

快速回复 返回顶部 返回列表