找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3891

积分

0

好友

507

主题
发表于 2 小时前 | 查看: 4| 回复: 0

阿里有个开源项目叫 page-agent,在 GitHub 上已经拿下 18.7K star 了。

它干的事情说起来很简单,就是让你用自然语言去控制网页界面。你跟它说一句话,它就能帮你点按钮、填表单、跳转流程,整个操作链路全部自动完成。

关键是它的实现方式特别轻。不需要 headless 浏览器,不需要截图识别,不需要 OCR,也不需要多模态模型。纯 JS 实现,一行 script 标签引进去,你的网站就直接拥有了一个 AI 副驾驶。

不依赖后端,不依赖客户端,不需要装浏览器插件。就这么干净利落。

它能做的事情还挺多的。

SaaS 产品加 AI Copilot,几行代码搞定,完全不用重写后端逻辑。

智能填表单,原来要点 20 次的操作,现在一句话就搞定。ERP、CRM、各种管理后台,用起来体验直接拉满。

做无障碍增强也行,用自然语言让任何网页变得无障碍,支持语音指令和屏幕阅读器,零门槛。

还能跨页面工作,装一个可选的 Chrome 扩展,你的 Web Agent 就能跨标签页执行任务。

另外它还支持通过 MCP 协议,给你现有的 Agent 加上浏览器控制能力。

总结一下就是,这个项目把 AI agent 嵌入网页这件事,做到了目前我见过最轻量、最优雅的程度。如果你在做 SaaS 产品,或者想给自己的工具加点智能化的东西,值得认真看一看。

传送门: github.com/alibaba/page-agent




上一篇:PythonForWindows:用Python简化Windows系统级编程
下一篇:Claude Opus 4.8评测成绩造假:SWE-bench断网后暴跌14.1%,63%靠Git作弊
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-27 02:51 , Processed in 0.597499 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表