在AI技术飞速发展的今天,大语言模型的应用早已超越了简单的对话。你有没有想过,有一天AI可以直接坐在你的电脑前,帮你处理那些重复、繁琐的桌面操作?TuriX-CUA正是这样一个应运而生的开源项目,它旨在通过Python的力量,让AI能够直接“看”屏幕、“想”步骤、“动”手脚,实现复杂的任务自动化,为开发者和效率追求者开启一种全新的工作模式。

项目概述
TuriX-CUA是一个基于Python开发的开源AI智能体项目,其核心目标是让大语言模型具备操作电脑的能力。它通过“看屏幕-理解-操作”的循环,实现自动化任务执行,支持Windows和MacOS系统,并且可以通过MCP协议与其他AI工具集成,极大地扩展了应用场景。
核心功能
智能屏幕识别与操作
TuriX-CUA能够通过截屏识别屏幕内容,精准地模拟鼠标点击和键盘输入,从而实现自动化任务执行。它采用先进的UI定位技术,即使面对复杂的网页或非标准界面元素,也能准确识别并进行操作。
多模态任务执行
该工具支持多种复杂任务,如预订机票、搜索信息、生成图表并插入文档等。它结合视觉信息和上下文语义分析,提供更自然的人机对话体验,能够理解用户意图并完成复杂的多步骤操作。
多模型架构
TuriX-CUA采用Planner和Executor分工合作的多模型架构。Planner负责将复杂任务拆解为多个可执行的子步骤,Executor则负责具体的交互操作。这种分工模式不仅提高了任务执行的成功率和稳定性,还降低了单一模型的认知负荷。
跨平台支持
TuriX-CUA兼容Windows和MacOS两大主流操作系统,能够满足不同用户的操作系统需求,使其在更广泛的场景中得以应用。
MCP协议集成
通过支持MCP协议,TuriX-CUA可以与Claude等其他AI工具无缝协作。这意味着用户可以在这些应用中直接下达自然语言指令,由Claude通过MCP协议调度TuriX执行相应操作,从而实现复杂任务的自动化。
灵活的模型配置
用户可以根据自身需求更换底层AI模型,如OpenAI或本地部署的Qwen3-VL,以满足不同的性能和隐私要求。
任务规划与分解
TuriX-CUA能够将复杂任务拆解为多个步骤,逐一执行,从而提升任务的完成度。这种任务规划能力使其能够应对更复杂的自动化需求。
技术揭秘
三步循环:看-想-动
TuriX-CUA的核心逻辑是一个不断循环的三步流程:
- 看(See)——屏幕截图:每隔固定时间间隔,TuriX会对当前屏幕进行截图。在MacOS上使用系统级截图API,在Windows上则使用PIL或pyautogui等库。
- 想(Think)——多模态模型推理:将截图发送给多模态大语言模型(VLM),同时附带任务描述和上下文信息。模型会返回一个结构化的操作指令,并附带推理过程,这使得整个系统具备了可解释性。
- 动(Act)——执行操作:根据模型返回的指令,TuriX通过模拟鼠标和键盘操作来执行具体任务。
状态感知与异常处理
TuriX-CUA具备一定的状态感知和异常处理能力。它能够检测页面加载状态、识别并处理弹窗,甚至在操作失败时尝试回退或换一种方式。这些能力通过在prompt中加入详细的指导以及利用多模态模型的视觉理解能力来实现。
应用场景
文档处理
TuriX-CUA能够自动创建、编辑和发送文档,如Word、Excel和PowerPoint。它可以根据用户指令生成报告、插入图表,并将文档发送给指定联系人,极大地提高了文档处理的效率,尤其适合需要频繁撰写和修改文档的办公场景。
邮件管理
在邮件管理方面,TuriX-CUA可以自动撰写、发送和回复邮件。用户只需设置好规则,它就能自动处理日常邮件任务,如回复常见问题、整理邮件分类等,帮助用户节省时间,提升邮件处理的效率。
数据收集
TuriX-CUA能够自动从网页或应用程序中提取数据,例如搜索并记录产品价格、股票信息等。它可以通过自动化操作,快速收集和整理数据,为用户提供准确的信息支持,适用于市场调研、数据分析等场景。
内容搜索与浏览
TuriX-CUA可以在浏览器中自动搜索内容、浏览网页,并执行点赞、评论或分享等操作。它能够根据用户指令快速定位信息,完成社交互动或内容筛选,适合需要频繁浏览和操作网页的用户。
界面测试
对于软件开发人员,TuriX-CUA可以自动测试软件的用户界面,验证功能是否正常运行。它能够模拟用户操作,检查界面元素的响应情况,帮助开发者快速发现并修复问题,提升软件的稳定性和用户体验。
商务操作
TuriX-CUA能够完成复杂的商务操作,如预订机票、酒店和网约车。它能够自动填写表单、比较价格并完成预订流程,为商务出行提供便捷支持,节省用户的时间和精力。
社交媒体管理
在社交媒体管理方面,TuriX-CUA可以自动搜索视频、点赞内容、收集信息等。它能够根据用户设定的规则,自动完成社交媒体的互动操作,帮助用户更好地管理社交媒体账号。
开发测试
TuriX-CUA可以辅助开发者在VS Code中编写代码、调试项目,甚至自动化测试软件功能。它能够根据用户指令快速定位问题并提供解决方案,提升开发效率。
个性化任务
用户可以根据自身习惯定制操作,如定时备份文件、监控特定网页更新等。TuriX-CUA的灵活性使其能够满足用户的个性化需求,为用户提供更加贴心的自动化服务。
快速使用
环境准备
- 安装Python和Conda:确保安装了Python 3.12和Conda。使用以下命令创建Python环境:
conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt
- 克隆项目代码:从GitHub克隆TuriX-CUA项目代码:
git clone https://github.com/TurixAI/TuriX-CUA.git
cd Turix-CUA
配置模型
- 编辑
config.json:在examples/config.json中配置任务和API密钥。例如:
{
"agent": {
"task": "open system settings, switch to Dark Mode"
},
"llm": {
"provider": "turix",
"api_key": "YOUR_API_KEY",
"base_url": "https://llm.turixapi.io/v1"
}
}
如果需要使用其他模型,可在main.py中定义并配置。
权限设置
- macOS权限:
打开“系统设置-隐私与安全性-辅助功能”,添加终端和使用的IDE(如Visual Studio Code)。
启用Safari的远程自动化功能:
osascript -e 'tell application "Safari" to do JavaScript "alert(\\"Triggering accessibility request\\")" in document 1'
- Windows权限:切换到
windows分支,按照说明进行权限设置。
启动Agent
在配置完成后,运行以下命令启动Agent:
python main.py
观察Agent根据配置的任务描述自动操作桌面。
结语
TuriX-CUA作为一款开源的AI桌面Agent,通过其强大的核心功能和灵活的技术架构,为用户提供了一种全新的自动化工作方式。它降低了将前沿人工智能技术应用于日常桌面的门槛,带来了高效、智能的操作体验。随着技术的迭代和社区贡献的增多,这类工具无疑将在自动化办公、开发测试乃至更多个性化场景中,扮演越来越重要的角色。对这类前沿开源项目感兴趣的朋友,不妨到云栈社区的智能与数据板块交流探讨,共同探索AI自动化的无限可能。
GitHub仓库:https://github.com/TurixAI/TuriX-CUA