找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2117

积分

1

好友

287

主题
发表于 6 天前 | 查看: 20| 回复: 0

Lux 是一个专门用于计算机操作的基础模型。与仅能生成文本的传统 AI 不同,Lux 能够理解屏幕上的视觉信息,解析自然语言描述的任务目标,并实时操控计算机来完成具体工作。

例如,你可以对电脑说“打开浏览器,访问某个网站”,Lux 便能像真人一样执行一系列操作:移动鼠标、点击图标、输入网址、滚动页面。整个过程流畅自然,几乎与人类操作无异。

LuxThinker 1.0 在 Mind2Web 基准测试中表现优异

Lux 的技术实现

Lux 的优势在于它不依赖于任何特定的应用程序接口(API),因此能够在几乎任何桌面应用中工作,无论是浏览器、代码编辑器、邮件客户端还是电子表格软件。它的核心技术融合了计算机视觉动作预测

  • 捕获屏幕截图:实时获取当前桌面状态。
  • 解析 UI 组件:识别窗口、按钮、输入框等界面元素。
  • 预测下一步操作:判断需要执行的点击、输入、滚动等动作。
  • 循环执行:持续执行“观察-行动”循环,直至任务结束。

在涉及 300 个实际网络操作场景的基准测试中,Lux 的表现超越了 Google Gemini CUA、OpenAI Operator 以及 Anthropic Claude 等同类方案。

Lux SDK 工作流程图:截图、预测、执行

工作机制

Lux 运行在一个持续的动作-观察循环之中:

目标 → 视觉分析 → 执行动作 → 获取反馈 → 循环

用户使用自然语言下达指令,例如:“打开浏览器并搜索最新新闻”。随后,Lux 会截取当前屏幕画面,并基于截图内容智能决策下一步操作,可能包括:

  • 点击某个特定按钮
  • 在输入框中键入文字
  • 移动光标至目标位置
  • 滚动页面以查看更多内容
  • 触发系统或应用的快捷键

执行动作后,Lux 会再次捕获新的屏幕状态作为反馈,并进入下一轮循环。这个过程会一直持续,直到预设任务被完成为止。你可以将它想象成一个坐在你电脑前,替你处理琐碎工作的 AI 助手。

环境配置

在开始使用 Lux 之前,需要完成必要的安装和系统权限设置。

步骤 1:权限授予

Lux 需要与常规自动化工具相同的系统权限:屏幕录制权限辅助功能权限

在终端中执行以下命令来触发权限申请:

oagi agent permission

在 macOS 系统中,执行上述命令后系统会弹出权限请求窗口,主要涉及:

  • 辅助功能
  • 屏幕录制

你需要进入 系统设置 — 隐私与安全,在相应的权限列表中批准这些请求。权限设置完成后,请务必重启终端应用以使更改生效。

步骤 2:API 认证

访问 agiopen 官方网站以生成新的 API 密钥。新注册用户通常会获得一定额度的免费试用(例如 $10),这足以运行数十次代理任务。

获取密钥后,需要在终端中配置环境变量:

export OAGI_API_KEY=sk-...
export OAGI_BASE_URL=https://api.agiopen.org

步骤 3:桌面环境准备

由于 Lux 直接读取并分析屏幕内容,一个干净、整洁的桌面环境有助于提高 UI 元素识别的准确性。

推荐的工作区配置如下:

  • 浏览器以单个最大化窗口运行。
  • 使用空白页或简洁的起始页。
  • 保持桌面图标整洁,尽量减少无关窗口。
  • 使用颜色单一或简洁的桌面壁纸。

整洁的浏览器窗口示例,利于 AI 识别

不推荐的配置包括:

  • 多个小窗口杂乱排列。
  • 不同程序的窗口互相重叠遮挡。
  • 使用元素复杂、色彩斑斓的桌面壁纸。

混乱的桌面环境可能导致 Lux 在识别元素时出错,从而需要多次重试或执行错误点击。

杂乱的桌面环境可能导致 AI 操作失误

步骤 4:第一次运行

完成上述配置后,就可以尝试运行你的第一个 Lux 指令了:

oagi agent run "Go to https://agiopen.org" --model "lux-actor-1"

执行命令后,你将看到鼠标开始自动移动,键盘自动输入,整个网页访问过程完全由 AI 自动化完成。

实际案例

假设我们需要 Lux 完成一个更复杂的任务:启动浏览器,搜索“OpenAGI Lux model documentation”,并滚动浏览搜索结果。

对应的命令如下:

oagi agent run "Open a browser, search for OpenAGI Lux model documentation, and scroll through the results." --model "lux-actor-1"

Lux 会按逻辑顺序执行以下步骤:

  1. 识别并定位到浏览器图标或Dock栏中的浏览器。
  2. 点击以启动浏览器应用程序。
  3. 在浏览器界面中定位地址栏或搜索框。
  4. 输入指定的搜索关键词。
  5. 模拟按下回车键进行搜索。
  6. 加载搜索结果页面后,识别页面的可滚动区域。
  7. 自动执行向下滚动操作,以浏览更多结果。

整个流程完全依赖于 Lux 的视觉理解动作预测能力,无需任何预设脚本或规则。

总结

Lux 不仅是一个先进的AI模型,更代表了一个重要的技术发展方向:让计算机能够直接理解并执行人类的高层意图,而非依赖于人类一步步的点击和输入。这种基础模型的能力,正在将“让电脑替你把事情做了”这个想法变为触手可及的现实。如果你对AI如何通过计算机视觉理解世界并与之交互感兴趣,可以到 云栈社区人工智能 板块查看更多深度讨论和技术分享。

有趣的梗图图标




上一篇:明基RD280U评测:专为程序员与网安工程师打造的4K编程显示器
下一篇:分页查询性能分析:排序与筛选条件的影响与优化
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-10 18:23 , Processed in 0.260752 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表