2137 积分	0 好友	279 主题

发消息

[Python] 开源AI桌面Agent TuriX-CUA：用Python让AI接管你的Windows与macOS自动化任务

发表于 2026-1-24 12:39:32 | 查看: 90| 回复: 0

在AI技术飞速发展的今天，大语言模型的应用早已超越了简单的对话。你有没有想过，有一天AI可以直接坐在你的电脑前，帮你处理那些重复、繁琐的桌面操作？TuriX-CUA正是这样一个应运而生的开源项目，它旨在通过Python的力量，让AI能够直接“看”屏幕、“想”步骤、“动”手脚，实现复杂的任务自动化，为开发者和效率追求者开启一种全新的工作模式。

TuriX软件界面截图

项目概述

TuriX-CUA是一个基于Python开发的开源AI智能体项目，其核心目标是让大语言模型具备操作电脑的能力。它通过“看屏幕-理解-操作”的循环，实现自动化任务执行，支持Windows和MacOS系统，并且可以通过MCP协议与其他AI工具集成，极大地扩展了应用场景。

核心功能

智能屏幕识别与操作

TuriX-CUA能够通过截屏识别屏幕内容，精准地模拟鼠标点击和键盘输入，从而实现自动化任务执行。它采用先进的UI定位技术，即使面对复杂的网页或非标准界面元素，也能准确识别并进行操作。

多模态任务执行

该工具支持多种复杂任务，如预订机票、搜索信息、生成图表并插入文档等。它结合视觉信息和上下文语义分析，提供更自然的人机对话体验，能够理解用户意图并完成复杂的多步骤操作。

多模型架构

TuriX-CUA采用Planner和Executor分工合作的多模型架构。Planner负责将复杂任务拆解为多个可执行的子步骤，Executor则负责具体的交互操作。这种分工模式不仅提高了任务执行的成功率和稳定性，还降低了单一模型的认知负荷。

跨平台支持

TuriX-CUA兼容Windows和MacOS两大主流操作系统，能够满足不同用户的操作系统需求，使其在更广泛的场景中得以应用。

MCP协议集成

通过支持MCP协议，TuriX-CUA可以与Claude等其他AI工具无缝协作。这意味着用户可以在这些应用中直接下达自然语言指令，由Claude通过MCP协议调度TuriX执行相应操作，从而实现复杂任务的自动化。

灵活的模型配置

用户可以根据自身需求更换底层AI模型，如OpenAI或本地部署的Qwen3-VL，以满足不同的性能和隐私要求。

任务规划与分解

TuriX-CUA能够将复杂任务拆解为多个步骤，逐一执行，从而提升任务的完成度。这种任务规划能力使其能够应对更复杂的自动化需求。

技术揭秘

三步循环：看-想-动

TuriX-CUA的核心逻辑是一个不断循环的三步流程：

看（See）——屏幕截图：每隔固定时间间隔，TuriX会对当前屏幕进行截图。在MacOS上使用系统级截图API，在Windows上则使用PIL或pyautogui等库。
想（Think）——多模态模型推理：将截图发送给多模态大语言模型（VLM），同时附带任务描述和上下文信息。模型会返回一个结构化的操作指令，并附带推理过程，这使得整个系统具备了可解释性。
动（Act）——执行操作：根据模型返回的指令，TuriX通过模拟鼠标和键盘操作来执行具体任务。

状态感知与异常处理

TuriX-CUA具备一定的状态感知和异常处理能力。它能够检测页面加载状态、识别并处理弹窗，甚至在操作失败时尝试回退或换一种方式。这些能力通过在prompt中加入详细的指导以及利用多模态模型的视觉理解能力来实现。

应用场景

文档处理

TuriX-CUA能够自动创建、编辑和发送文档，如Word、Excel和PowerPoint。它可以根据用户指令生成报告、插入图表，并将文档发送给指定联系人，极大地提高了文档处理的效率，尤其适合需要频繁撰写和修改文档的办公场景。

邮件管理

在邮件管理方面，TuriX-CUA可以自动撰写、发送和回复邮件。用户只需设置好规则，它就能自动处理日常邮件任务，如回复常见问题、整理邮件分类等，帮助用户节省时间，提升邮件处理的效率。

数据收集

TuriX-CUA能够自动从网页或应用程序中提取数据，例如搜索并记录产品价格、股票信息等。它可以通过自动化操作，快速收集和整理数据，为用户提供准确的信息支持，适用于市场调研、数据分析等场景。

内容搜索与浏览

TuriX-CUA可以在浏览器中自动搜索内容、浏览网页，并执行点赞、评论或分享等操作。它能够根据用户指令快速定位信息，完成社交互动或内容筛选，适合需要频繁浏览和操作网页的用户。

界面测试

对于软件开发人员，TuriX-CUA可以自动测试软件的用户界面，验证功能是否正常运行。它能够模拟用户操作，检查界面元素的响应情况，帮助开发者快速发现并修复问题，提升软件的稳定性和用户体验。

商务操作

TuriX-CUA能够完成复杂的商务操作，如预订机票、酒店和网约车。它能够自动填写表单、比较价格并完成预订流程，为商务出行提供便捷支持，节省用户的时间和精力。

社交媒体管理

在社交媒体管理方面，TuriX-CUA可以自动搜索视频、点赞内容、收集信息等。它能够根据用户设定的规则，自动完成社交媒体的互动操作，帮助用户更好地管理社交媒体账号。

开发测试

TuriX-CUA可以辅助开发者在VS Code中编写代码、调试项目，甚至自动化测试软件功能。它能够根据用户指令快速定位问题并提供解决方案，提升开发效率。

个性化任务

用户可以根据自身习惯定制操作，如定时备份文件、监控特定网页更新等。TuriX-CUA的灵活性使其能够满足用户的个性化需求，为用户提供更加贴心的自动化服务。

快速使用

环境准备

安装Python和Conda：确保安装了Python 3.12和Conda。使用以下命令创建Python环境：

conda create -n turix_env python=3.12
conda activate turix_env
pip install -r requirements.txt

克隆项目代码：从GitHub克隆TuriX-CUA项目代码：

git clone https://github.com/TurixAI/TuriX-CUA.git
cd Turix-CUA

配置模型

编辑config.json：在examples/config.json中配置任务和API密钥。例如：

{
    "agent": {
        "task": "open system settings, switch to Dark Mode"
    },
    "llm": {
        "provider": "turix",
        "api_key": "YOUR_API_KEY",
        "base_url": "https://llm.turixapi.io/v1"
    }
}

如果需要使用其他模型，可在main.py中定义并配置。

权限设置

macOS权限：

打开“系统设置-隐私与安全性-辅助功能”，添加终端和使用的IDE（如Visual Studio Code）。

启用Safari的远程自动化功能：

osascript -e 'tell application "Safari" to do JavaScript "alert(\\"Triggering accessibility request\\")" in document 1'

Windows权限：切换到windows分支，按照说明进行权限设置。

启动Agent

在配置完成后，运行以下命令启动Agent：

python main.py

观察Agent根据配置的任务描述自动操作桌面。

结语

TuriX-CUA作为一款开源的AI桌面Agent，通过其强大的核心功能和灵活的技术架构，为用户提供了一种全新的自动化工作方式。它降低了将前沿人工智能技术应用于日常桌面的门槛，带来了高效、智能的操作体验。随着技术的迭代和社区贡献的增多，这类工具无疑将在自动化办公、开发测试乃至更多个性化场景中，扮演越来越重要的角色。对这类前沿开源项目感兴趣的朋友，不妨到云栈社区的智能与数据板块交流探讨，共同探索AI自动化的无限可能。

GitHub仓库：https://github.com/TurixAI/TuriX-CUA

上一篇：从银狐远控源码学习，探讨Windows安全工程的学习方法论
下一篇：Android Gradle Plugin 9.0 升级陷阱：直面 New DSL、Built-in Kotlin 与 KMP 兼容性

Python, 人工智能, 桌面自动化, Windows, GitHub