
随着AI Agent的快速发展,浏览器自动化已经成为最频繁的应用场景之一。然而,传统方案总是难以避开几个核心挑战:复杂的验证码、登录校验、人机识别机制,以及高昂的上下文Token成本和割裂的浏览器实例。
Playwriter 正是在这种需求背景下应运而生的解决方案。它的目标不是重新造一个浏览器,而是实现 让AI直接进入你正在使用的Chrome,并与人类协同完成复杂的网页任务,这一理念无疑为前端 & 移动自动化带来了新的思路。
一、Playwriter 是什么?
Playwriter 是一个基于 Playwright 构建的开源AI浏览器自动化工具,它以 Chrome扩展程序 和 MCP(Model Context Protocol) 协议的形式来运行。
它的核心特点可以用一句话概括:
AI不再“模拟浏览器”,而是直接操作你正在使用的浏览器。
借助Playwriter,AI能够在你当前打开的网页标签页中执行点击、输入、内容抓取、调试等一系列操作,同时允许用户在关键节点进行人工干预,实现真正意义上的人机协作。
项目已在GitHub上开源:👉 https://github.com/remorses/playwriter
二、Playwriter 的核心设计思路
1️⃣ 不新开浏览器实例
传统的自动化方案,例如使用Puppeteer或Playwright CLI,通常会启动一个全新的、“干净”的浏览器实例,这带来了诸多问题:
- 无登录状态(Cookie、Session)
- 无用户已安装的插件
- 行为模式单一,容易触发网站的反爬虫或风控机制
而Playwriter选择直接运行在 用户已有的Chrome浏览器进程 中:
- 可以复用已有的登录态和Cookie
- 能够利用现有的浏览器插件(如广告拦截器、密码管理器)
- 操作行为更接近于真实用户,降低了被识别为机器人的风险
2️⃣ 人机协作,而非全自动幻想
Playwriter的设计哲学非常务实:它不试图“绕开”所有验证码或复杂的双因子认证流程,而是坦然承认现实的复杂性。
- 由人类来完成验证码识别、短信验证等非结构化挑战
- 然后由AI无缝接管后续所有可以自动化的流程
这种协作模式极大地提高了复杂任务的成功率,也更符合实际的生产环境需求。
3️⃣ 面向 AI Agent 的控制协议(MCP)
Playwriter通过 Model Context Protocol(MCP) 与AI客户端进行通信,这是一种为AI工具调用而设计的协议。
- AI客户端(如Claude Desktop)不直接操作浏览器DOM
- 而是通过MCP向本地的Playwriter Server发送标准的Playwright脚本
- 最终由浏览器扩展在授权页面内执行这些脚本
这种设计使得Playwriter能够无缝接入Claude、GPTs、Gemini等多种支持MCP协议的AI客户端。
三、整体架构一览
Playwriter的架构可以清晰地分为三层:
1. Chrome 扩展层
- 向页面注入控制能力
- 管理哪些标签页可以被AI操作
- 提供明确、清晰的用户授权机制(点击扩展图标授权)
当某个标签页被授权后,扩展图标会变为绿色,给予用户直观的反馈。
2. MCP Server(本地代理)
- 一个运行在本地的Node.js服务
- 通过WebSocket与Chrome扩展进行通信
- 负责接收并转发来自AI客户端的自动化请求
默认监听本地端口(如19988),所有通信均在本地完成,不涉及任何云端浏览器服务,保障了隐私和安全。
3. Playwright API 代理
Playwriter 完整地暴露了Playwright的API能力,AI可以调用的功能非常强大:
- 页面导航与路由
- 精准的元素定位与操作
- 网络请求的拦截与修改
- 在页面上下文中执行任意JavaScript脚本
- 对React等前端框架的组件进行调试
这意味着AI执行的是完整、标准的Playwright API代码,而非经过封装或功能阉割的简单指令。

四、核心功能详解
1️⃣ 人机协作无缝切换
这是Playwriter最核心的竞争力:
- 用户手动完成高风险或非结构化的操作(如登录、验证码)。
- AI随即自动接管后续所有标准化、可重复的流程。
- 整个切换过程平滑流畅,无需重启任务或重新加载页面。
在实际业务自动化中,这种灵活的协作模式至关重要。
2️⃣ 完整 Playwright 能力支持
Playwriter选择不封装所谓的高层指令,而是直接为AI提供原生的Playwright能力,这使得它不仅能用于数据抓取,也非常适合开发和调试场景:
- 拦截和修改网络请求(可用于Mock数据)
- 操作Shadow DOM中的元素
- 调试前端组件状态(特别是React组件调试)
- 执行包含复杂逻辑的自动化脚本
3️⃣ 浏览器扩展原生集成
作为Chrome扩展,Playwriter具备天然优势:
- 无需启动额外的浏览器进程,资源占用极低
- 操作完全在用户浏览器环境中进行,行为指纹与真人用户无异
- 特别适合用于那些对反爬措施极其敏感的网站
4️⃣ 安全与用户控制
Playwriter在控制权限上表现得非常克制,确保了用户安全:
- AI 只能操作用户主动点击扩展图标授权的标签页。
- 每个标签页的授权都是独立的。
- 被接管的页面中会有明显的视觉提示。
从根本上杜绝了“AI在后台偷偷控制浏览器”的可能性。
五、典型使用流程
一个标准的Playwriter使用流程非常清晰:
- 安装Playwriter Chrome扩展(可从Chrome Web Store或源码安装)。
- 在本地启动Playwriter MCP Server。
- 打开目标网页,点击浏览器工具栏中的Playwriter扩展图标,授权对该页面的控制。
- 在你使用的AI客户端(如Claude Desktop)中,向AI下达任务指令。
- AI生成并执行相应的Playwright自动化脚本。
- 浏览器页面实时响应,并将结果反馈给AI和用户。
整个过程对用户而言是高度可见和可控的。
六、典型应用场景
数据抓取与整理
- 从网页中抓取表格数据、商品详情、新闻文章列表。
- 将抓取到的信息自动整理并输出为结构化的Markdown或Excel文件。
网页状态监控
- 监控商品价格的变动。
- 跟踪库存状态的更新。
- 定期检查特定页面内容是否发生变化。
复杂网页交互
- 自动填写多步骤、多字段的在线表单。
- 处理文件上传操作。
- 在具有大量动态交互的页面上执行系列操作。
前端开发辅助
- 分析页面加载过程中的网络请求。
- 调试React/Vue组件的数据流与状态。
- 辅助进行页面性能问题的排查与复现。
此外,Playwriter项目本身也有一套极具极客风格的视觉设计,其宣传图强调了“久经测试”、“无上下文冗余”、“任务级”和“10倍更强能力”等特性,彰显了开发者对其在复杂场景下稳定性和能力的自信。

对这类融合了AI与浏览器自动化的前沿工具感兴趣?欢迎在云栈社区的相应板块交流更多实战心得与开发技巧。