阿里有个开源项目叫 page-agent,在 GitHub 上已经拿下 18.7K star 了。
它干的事情说起来很简单,就是让你用自然语言去控制网页界面。你跟它说一句话,它就能帮你点按钮、填表单、跳转流程,整个操作链路全部自动完成。
关键是它的实现方式特别轻。不需要 headless 浏览器,不需要截图识别,不需要 OCR,也不需要多模态模型。纯 JS 实现,一行 script 标签引进去,你的网站就直接拥有了一个 AI 副驾驶。
不依赖后端,不依赖客户端,不需要装浏览器插件。就这么干净利落。
它能做的事情还挺多的。
给 SaaS 产品加 AI Copilot,几行代码搞定,完全不用重写后端逻辑。
智能填表单,原来要点 20 次的操作,现在一句话就搞定。ERP、CRM、各种管理后台,用起来体验直接拉满。
做无障碍增强也行,用自然语言让任何网页变得无障碍,支持语音指令和屏幕阅读器,零门槛。
还能跨页面工作,装一个可选的 Chrome 扩展,你的 Web Agent 就能跨标签页执行任务。
另外它还支持通过 MCP 协议,给你现有的 Agent 加上浏览器控制能力。
总结一下就是,这个项目把 AI agent 嵌入网页这件事,做到了目前我见过最轻量、最优雅的程度。如果你在做 SaaS 产品,或者想给自己的工具加点智能化的东西,值得认真看一看。
传送门: github.com/alibaba/page-agent
|