5697 积分	0 好友	756 主题

[Python] 告别Selenium？微软Magentic-UI：基于AI的网页自动化新方案

发表于 2026-3-20 06:48:48 | 查看: 132| 回复: 0

在网页爬虫和自动化测试的开发工作中，你是否也厌倦了编写和调试那些脆弱且冗长的元素定位脚本？使用传统的 Selenium 框架时，网页结构稍有变动就可能导致脚本失效，随之而来的便是漫长的排查与重写过程。

今天要介绍一款微软新近开源的项目：Magentic-UI。它的核心思路是运用 AI 智能体（Agent）来替代我们手动操作浏览器，试图从根本上解决这一痛点。这个工具不仅能自动浏览网页、填写表单，还能执行代码、分析文件，并支持多任务并行，就像一个随时待命的智能网页“副驾驶”。

接下来，我们来详细了解 Magentic-UI 的核心功能与亮点。

主界面采用左右分屏设计，左侧展示任务计划和执行流程，右侧则是实时的浏览器窗口，所有操作过程都清晰可见。任务的执行逻辑、网页的跳转响应都一目了然，用户可以随时查看和介入，让人感到放心和直观。

Magentic-UI 主界面展示：左侧为任务计划面板，右侧为实时操作界面，用户正在自定义披萨订单

当你告诉它一个目标（例如“在 Grubhub 上为我订一份蟹肉云吞”），它会自动生成一个分步骤的执行计划，并在过程中与你确认。如果对某一步骤不满意，你可以手动修改或调整，确保每一次自动化都处于可控状态。

Magentic-UI 计划生成界面：AI根据用户请求，生成了从查找餐厅到下单结账的四个步骤

在任务执行过程中，如果对 AI 当前的操作有异议，你可以随时中断它，自行操作浏览器，或者指示它下一步该怎么做。这种设计打破了传统自动化工具的黑盒模式，实现了真正的“人机协同”。

Magentic-UI 执行界面：AI正在执行第二步“查找在线取餐网站”，右侧显示餐厅主页

对于支付、提交订单、删除数据等关键或敏感操作，Magentic-UI 不会擅自执行。它会弹出审批请求，明确告知即将执行的动作内容和细节，等待用户确认后再继续。这极大地防止了误操作，提升了安全性。

Magentic-UI 动作审批界面：在执行添加菜品到购物车的关键步骤前，请求用户批准

Magentic-UI 支持同时运行多个自动化任务。每个任务都有明确的进度标识：红色表示等待用户输入，绿色表示已完成，旋转箭头表示正在执行中。用户只需关注需要回应的部分，管理起来高效且轻松。

上手使用 Python 版本的 Magentic-UI 非常简单，仅需几个命令：

创建并激活虚拟环境：

python3 -m venv .venv
source .venv/bin/activate

设置 OpenAI API 密钥：

export OPENAI_API_KEY="your-api-key-here"

启动后，在浏览器中访问 http://localhost:8081 即可开始使用。

Magentic-UI 更适合有一定 Python 基础、需要进行网页交互或流程自动化的开发者。其配置过程并不复杂，但为了获得最佳效果，建议在 Docker 环境中运行，并使用 GPT-4 或以上版本的模型作为驱动。

如果你正在寻找一种“过程可见、高度可控、交互自然”的新一代网页自动化工具，这个来自微软的开源项目非常值得你深入探索。欢迎在云栈社区分享你的使用体验与见解。