云栈社区»论坛 › 技术文档「 Note & Doc 」 › Web Access Skill完全指南：赋予Agent真实浏览器操作与并行联网 ...

发回帖发新帖

3816 积分	0 好友	506 主题

发消息

Web Access Skill完全指南：赋予Agent真实浏览器操作与并行联网能力

发表于 2026-4-11 07:09:53 | 查看: 154| 回复: 0

这个Skill，能让你的Agent联网能力提升到最离谱的一集。

这是我用这个Skill跑的Agent任务：10个子Agent同时操作小红书、微博、B站、Boss、虎嗅等10个不同平台，一次性打开100个网页，并行操作各平台界面，查阅内容、汇总报告。

Web Access技能运行效果：多窗口并行操作展示

不抢用户电脑控制权，Agent后台自行站内搜索、连续操作网页。

还能帮你自动在各大社交平台发布内容。包括打开社媒平台、填文案、传图片、自动发布，无需人为介入。

自动化社交媒体发布流程演示

更日常、真实的各类联网需求，都能处理：比如替你找剧集播放、查询美签预约系统（甚至可以直接帮你完成预约）。

自动化网页查询与操作示例：美签预约

还能自动化Web测试；遇到部分人机验证，也能自动过。

Agent自动处理部分验证码过程

而且Skill内部设计了自动沉淀站点操作经验的机制，Agent联网操作越用越顺。

这些能力，都是Agent在这套Skill加持后的泛化表现，无需针对任何站点特化调优。Claude Code、Openclaw等所有支持skill的Agent都可使用。

请允许我向你介绍 ⬇️

👉 Web Access，我开发的Agent SKill，自测最好用Agent通用联网方案。

本文将向你分享Skill获取方法，顺便讲讲我的Skill设计哲学 ➡️ 兼顾「只想上手即用」、「了解Skill设计方法」的朋友阅读。

起因：Agent不是能联网吗，为什么要加这个？

👉 想上手即用的可直接跳到下一节～

我在做这套Skill之前，完整调研过Claude Code、OpenClaw的联网实现。

Agent们都有自己的联网工具，但着实不够好用：

Claude Code：默认Web Search做搜索、Web Fetch读页面；装Playwright、Chrome Devtool MCP后也能控制浏览器。
OpenClaw：同样提供Search、fetch的轻量web工具，遇到需登录/动态网站，能用CDP模式创建Agent专用浏览器。

Claude Code与OpenClaw内置联网工具对比

前者Claude Code只提供工具，访问策略全靠模型判断。
想法美好，现实骨感：模型太容易钻牛角尖了，一个“调研小红书中关于XX的风评”问题：

要么拿着Search工具，换各种关键词在搜索引擎里请求非公开网页的信息

搜索引擎无法获取非公开站内信息示例

要么用fetch无能地请求需要登录、JS密集的网站（根本加载不出来）
要么得自行安装Playwright、Agent Browser Cli，还免不了多次踩坑

后者OpenClaw，则依靠降级策略兜底：

要么提供CDP模式，支持为Agent单独维持一个登录态Profile，每个网站都需要重新为其登录，部分网站组件在CDP模式下也有无法加载的环境限制。
要么多下载一个浏览器插件，使其能够直接操作用户浏览器。

OpenClaw通过Chrome扩展连接现有浏览器

而且，它们对Agent并发操作多个网页的支持都不算很好，还可能和你抢浏览器控制权（表现为刚开新浏览器的时候，弹出网页抢走屏幕焦点等）。

我们也总希望Agent能在任务过程中，积累各站点的操作试错经验。
可惜经验也无法高效地聚类积累：CC跨会话记忆不积极，踩过的坑下次照踩；OpenClaw的Memory理论上能记，但上下文占用太重，总结也不够精准。

⬇️
理想的Agent联网方案，应该能看清楚自己手里有几张牌：

灵活分配搜索、静态读取、浏览器策略，遇到障碍能自己换工具，而不是在一条死路上反复撞。
复用你已有的登录态，不为每个站点单独维护一套身份。
强大的泛化能力，适应不同联网任务与目标站的操作、反爬要求。
支持Sub-Agent分治、高并发跑海量网页。后台执行，互不干扰，不抢你的浏览器控制权。
沉淀联网操作经验，下次访问同一个站点不用从头试错。

Web Access Skill完全解决了以上问题，正是我给这些问题的当前答案 ⬇️

Web Access技能理念与能力展示

👉 Web Access安装方法：解锁Agent完全联网能力

Web-access Skill，兼容Claude Code、OpenClaw，以及任何支持skill的Agent。

Web Access GitHub仓库主页

把下面这段话发给你的Agent，就能完成安装：

👉 帮我安装web-access skill，仓库地址是 https://github.com/eze-is/web-access 。这个skill原为Claude Code设计，安装前请先理解其核心原理和工作逻辑，再结合你的Agent架构与电脑环境进行适配，使其真正融入当前环境，而非生硬移植。

Agent会自动下载、配置环境，完成安装。不需要你手动操作。

为了确保浏览器操作的顺利，除了鼓励使用Claude、Kimi K2.5等大参数多模态Agent模型外，你还需要确认：

【必须】安装Chrome浏览器并更新到最新版本
Chrome浏览器地址栏输入 chrome://inspect/#remote-debugging，勾选 Allow remote debugging for this browser instance

Chrome远程调试设置界面

配置完成后，你只需要在Agent聊天窗口（CC、🦐等都可以），输入“遵循web-access skill”手动要求Agent参考；或直接输入你想做的联网相关的事情：

搜索信息、查看网页内容：“帮我查xx”
操作网页界面（填表、点击、上传）：“打开xx”
抓取、发布某博、某X等社交平台内容：“帮我在xx平台写xx”
以及读取动态渲染页面、任何需要浏览器的网络任务

当Agent接到指令后，会在Chrome上弹出一个提示，同意的话，点击允许就好：

Chrome远程调试授权弹窗

比如「调研小红书上qwen、minimax、glm的风评」：
Agent自动加载Skill，多开Agent，免登进入小红书，并行调研数十个网页内容（支持文字直接阅读与截图多模态识别）

多子Agent并行调研小红书内容

并且，在执行任务时，可自动沉淀常用网站的操作经验，可以显著提升后续执行效率（约节省90%的时间）

站点经验（site-patterns）目录说明

对了，如需最佳体验，强烈建议关闭多余的浏览器MCP服务，如Chrome Devtools、Playwright MCP，避免模型在工具中左右互搏。

这个Skill是如何做到的？

👉 不需要看Skill设计原理的，可以直接滑到文末，有件很好玩的事分享给你。此为简介版，完整Agent Skill进阶设计经验，将会在后续「见知录」系列中重新整理解析，欢迎关注。

不要小看Skill与Prompt的设计。Skill的底层实现原理导致：

针对固定任务，它可以是很具体的工作流经验「收集XX信息，汇总为XX报告」
面向通用场景，也可以视作Agent框架system prompt一部分，统筹某个原子化能力（虽然不如agent框架改造彻底）。

联网，是一种典型的通用场景：
你让人类同事去查信息，不会告诉他「用搜索引擎还是打开浏览器」——你只说「上网帮我查一查XX」。
人类会自然地根据联网任务的刻板印象，盘点自己有的联网方法（搜索引擎、站内搜索、阅读网页、点击交互、而且能并行开多个tab操作网页），初步计划自己的第一步操作：

阿里云某云服务定价：搜索引擎关键词“阿里云某某云服务”，找到官网对应页面（因为比直接上官网顺手）
小红书博主的更新情况：直接打开小红书，搜索该博主名称
发布社媒帖子：打开站点，登录账号，直接创建帖子并发布

我们在行动反馈中，实时调整自己的查询方法。不同的方法往往联用在一起，你很难说哪个行为可以完全孤立。
而第一步计划离不开刻板印象的作用，虽不准确，但足以作为执行验证的第一步。再结合后续「验证-校准计划」的Action Loop，在不断「尝试」中结束任务。

BTW：此前CC和🦐在联网任务中，表现「一条道走到黑」、「并行能力差」等行为，往往源自没有像人类一样思考规划任务，或没有充足好用的基础工具。

接下来正式分享Web Access Skill中精妙之处：

Skill的哲学式设计

1）Skill的哲学式设计

我尝试提出一个Skill设计理念：
激发模型能力上限的 Skill = Agent策略哲学 + 最小完备工具集 + 必要的事实说明

Skill设计理念图示

具体点解释：通用场景的Agent Skill或Prompt，需避免过度指定Agent「该怎么做」。
更侧重重新校准模型在对应场景的「策略哲学」、补充Agent缺少的「基础工具」、提前强调模型显然未必记得的「事实说明」。

Web-access正是按这个思路，精细雕琢了联网场景的浏览哲学。

Web Access技能中的浏览哲学

模型的思考是上下文的惯性衔接。而模型容易陷入「刻板印象」，在复杂任务中做「惯性不思考」：

联网查数据？那必然用Web Search工具啊
网上搜到这么多个站点都这么写？那肯定就是事实啊
网站用fetch加载不出来？肯定是网站挂了啊

⬇️
我们苦模型惯性久矣。
为了对抗模型的显式惯性，我自己的方法是：在Skill中，为模型提供闭合、高度抽象的思考策略哲学。

Web Access Skill里定义了一个四步循环：

Web Access浏览哲学四步循环图

① 拿到任务，先定义成功标准：什么算完成了？拿到什么信息、执行什么操作、达到什么结果？这是后续所有判断的锚点。
② 选一个最可能直达的方式作为起点去验证，比如已知涉及需要登录态、反爬的平台，直接进浏览器，不在静态工具（Search、Fetch、Curl）上浪费时间。
③ 过程校验：每一步的结果都是证据，不只是「成功/失败」的二元信号。搜索没命中，不一定是关键词不对，也可能是目标本身不存在。页面缺少预期元素、重试无改善，都是在告诉你该换方向了。遇到弹窗和登录墙，先判断它是否真的挡住了目标内容——内容可能已经在DOM里，交互只是展示手段。
④ 对照成功标准，确认任务完成后停止。不过度操作与纠结。

这部分浏览哲学，没有写任何具体操作路径，只是把「怎么思考联网任务」描述清楚了。Agent理解了这个框架，遇到没见过的网页、任务也能给出更好的策略。

2）提供工具的最小完备集

通用场景的灵活处理能力，建立在给Agent提供工具的最小完备集之上。

大部分Agent框架都有一些联网工具，但整合得不够全面，可能缺少某些原子化能力。Skill做的事，是把联网场景需要的工具整合到位，并清晰描述每个工具的能力边界。

人类上网其实就三种行为：搜（找到信息在哪）、看（看到内容）、做（在页面上执行操作）。覆盖这三种行为，就构成了联网工具的最小完备集。
对应到Agent，则需要这些具体工具：

联网工具最小完备集图示

搜 → Search，搜索摘要、发现信息来源
看 → Fetch / curl（公开页面AI提取/全文读取）或浏览器打开（需登录、动态渲染的页面）
做 → 浏览器自动化，点击、填表、上传等交互操作

Skill里用一张工具能力说明表，把这些工具的基础差异说清楚，为模型在不同任务中规划使用，提供参考基础：

联网工具选择场景对照表

出于节省token考虑，还选择了Jina作为一个可选中间层，可以和WebFetch、Curl组合使用，能把网页正文预先转成干净的Markdown再读，大幅节省token消耗。
适合文章、博客、文档类页面，鼓励模型在合适时积极使用。

关于浏览器为什么选Chrome自带CDP：早期测试了web-access基于Agent Browser多开不同CDP端口方案，并行效果不错，需要多开浏览器窗口，而非单窗口多Tab，体验不佳。
刚好Chrome发布了原生remote debugging能力，测试发现原生WebSocket交互方式能更好地规避大部分网站的反爬识别，而且天然支持单个浏览器内多tab并行后台操作，直连用户日常Chrome，天然携带登录态。——于是迁移到了CDP。

当然，完整的skill里面不止这些，还会包含如何检测CDP模式的连接状态、通过WS协议操作浏览器等说明（因为这些在原先Agent框架中未被提及）。
建议尽可能只向模型交代基础说明，不做过多策略引导。

附：为什么不走Agent Reach的路线？
Agent Reach这类方案是为每个网站单独写一套抓取方法。对支持的站点快且稳，但覆盖有限，对于有特定需求的用户效果也不错。
Web-Access选的是更加通用的联网方案：任何你能打开的网站Agent都能用，不依赖预设方法，更侧重激发Agent Native能力，覆盖面几乎没有上限。这是有意为之的取舍。

3）补充必要的事实说明

诚然，模型近乎知道所有知识，但并非所有知识都能在任务中，第一时间被调用。导致任务执行不及预期效率，或带来不希望的风险。
所以需要强调任务涉及到的「惰性知识」。

惰性知识定义说明

导致惰性知识的原因分析

篇幅有限，我挑选了部分设计，向你阐明在Skill Prompt中的差异：

1）验证惰性知识边界，补充事实说明：
模型在任务中，有很多未必快速记得的「事实、方法（惰性知识）」。
在Skill设计中，需要找到容易重复遗忘的边界，针对必要的信息，在Skill中直接补充。

程序化操作与GUI交互事实说明

信息核实类任务事实说明

以及一些特定的边界事实情况：

技术安全边界事实说明

2）对于某些有最优路径的事情，直接指定：
哪怕是再通用的任务，也会有一些唯一的、可直接执行的最优方式。
最小化的必要提示：

并行CDP操作事实说明

巧用Script/脚本文件：

启动检查脚本示例

都可减少模型思考、试错步骤。

3）强调安全风险边界：
由于浏览器CDP模式直接涉及到操纵用户自用浏览器，Agent极有可能会交叉使用or关闭用户原有标签。
如果你不希望模型做什么高危的事情，请明确强调。

浏览器CDP模式安全操作规范

子Agent分治：写目标，不写步骤

联网任务经常涉及多个独立目标，如同时查5个竞品、调研50个网页。
如果主Agent串行处理，不仅慢，所有抓取到的中间内容，还会涌入主Agent的上下文，token膨胀严重，后续推理质量也会下降。

我们可以利用Claude Code等Agent框架的Sub-agent机制，通过Skill Prompt设计，鼓励分治

子Agent分治策略说明

——把独立的子任务分配给子Agent并行执行，主Agent只接收汇总后的结果。开场那个10个Agent同时调研10个平台，开100个网页的案例，就是这个机制在工作。

10个子Agent并行启动执行示例

架构上，所有子Agent共享同一个Chrome、同一个CDP Proxy，各自创建自己的后台tab，通过不同的targetId操作，互不干扰，无竞态风险。不需要为每个子Agent单独启动浏览器实例。

特别强调，这里有一个容易忽略但很重要的机制陷阱：

👉 主Agent给子Agent写prompt时，默认会使用干扰子Agent行为的用词，影响子Agent内模型的判断。

比如，你写「调研小红书上关于XX的风评」，主Agent极有可能这么自动分配子Agent的Prompt：

在小红书上「搜索」 XX相关信息，总结近期风评

注意到了吗？
即使你非常小心的在主Prompt里写了「调研」，但在主Agent自动任务分治时，会像不讲究用词细节的人类，随意地给出不精确的、带有偏见的Prompt——「搜索」。
在此Prompt引导下，子Agent会更大概率会被锚定到WebSearch。
这导致了一个错误的起点：小红书是反爬平台，我们无法通过搜索、fetch找站内内容，正确的方法应该用浏览器工具直接进小红书，操作站内搜索。

这跟第一节讲的模型惯性是同一个问题：用词本身就是一种隐性规则，会限制Agent的判断空间。

所以我在Skill中也补充了对于的关于「Sub Agent」的事实说明：

子Agent Prompt写法要点

极其有用的设计：Skill内自动经验沉淀

Agent第一次访问一个从没见过的网站时，只能靠通用思路去试，测试站点结构……
这个过程往往步骤多、耗时长，因为它不知道这个站点的脾气：哪些页面需要登录、哪些内容可以直接构造URL跳转而不用模拟点击。

但有经验和无经验模式下，效率差异显著：

以在小红书内找到某个博主个人主页的任务为例：

有无站点经验记录的执行效率对比图表

所以我在Skill设计了一个经验沉淀机制，非常好用：

站点经验文件格式与使用说明

每次操作完一个站点，Agent会自动把该站点的访问策略沉淀下来：平台特征、有效的URL模式、已知的陷阱，按域名存储。下次访问同一个站点，直接复用先验知识，跳过试错环节。
这是一个learning loop：Agent的每一次操作都在积累经验，让下一次变得更快更准。

并且在经验文件中标注了发现日期，当作「可能有效的提示」而非「保证正确的事实」。网站会改版，反爬策略会更新。如果按经验操作失败，Agent会自动回退通用模式并更新经验文件。

架构探讨：设计一个在线经验共享池？

这件事还在构想阶段，让经验成为一个A2A社区共建的资产。
——实时共享、汇聚每个人Agent试错经验的经验池。

在线经验共享池构想图

理论上完全可行，极具吸引力。

光是我自己常用的站点（小红书、推特等）已经积累了不少经验，用起来越来越顺。
当所有用户积累的站点经验汇入同一个池子，经过自动合并后，每个人的每一次操作，都在让这个池子变得更好。
而由于Skill的渐进式披露设计，没用到的经验也不会占据上下文。

在有了这个在线经验池后，当Agent需要访问某个站点时，可以从一个在线的经验清单中按需拉取对应的站点经验。大幅提升常用站点的Agent效率（比如某红、X、微博……）

但……在Web Access这个Skill场景下，关键问题在于法律风险。
主Skill尚且可以解释为，指导Agent如何通用联网；但当Skill内置针对特定站点的结构分析经验呢？
会不会被一些尚未做好迎接Agent时代的公司法务关照？（说实话，Agent代查代发是必然趋势，一切软件都需要做好与Agent的接轨）（如果你有相关处理经验，也欢迎和我讨论）

所以当前版本，未启用在线经验池设计与共享我的Agent积累的经验。
不过也没关系，一旦你装上Skill之后，用多了自然也会攒出自己的站点经验。

站点经验（site-patterns）目录说明

🎐 写在最后

这个Skill真的迭代了很多版本，也越改越兴奋。
当看到Agent能够自发调动大量sub-agent，在同一个浏览器窗口内开出上百个窗口并行，自主摸索各个网站结构，积累操作经验时，你很难不暗暗开心这么一件事：

只靠一个人设计的Skill，就用通用模型与Agent框架，做出了体验过的AI产品们中，最丝滑的Browser Use效果。
（虽然是MIT协议，不会有人偷偷拿去商用+吹自己开发得好吧😑）

而本文也是第一次公开了我近期对Agent工程的设计思考：
如何在Agent框架中有效雕花，以激发Agent的自主智力？我的答案是：

Skill = Agent策略哲学 + 最小完备工具集 + 必要的事实说明

Skill的哲学式设计

也可以期待后续「见知录」整理出的更完善的Skill设计经验分享，值得关注。

作者全平台同名标识

BTW：对了，装好Skill了吗？
一起来玩：把这个任务发给你的Agent：

开10个 sub agent，分别调研小红书、微博、B站、Boss直聘、github、知乎、即刻、豆瓣、36kr、虎嗅的首页，每个sub agent分别开10个tab，并行调研今天内容、趋势、值得找的工作情况，汇总为更新报告。

考验你的电脑配不配得上Agent的时候来了 ⬇️（因为大概率会卡死，所以运行前请确保电脑文件均保存完毕…不然不建议玩这个）
欢迎社媒分享你电脑的内存占用图：你跑了多少并发？我的纪录是Chrome 38.6GB，Claude Code 14 GB，然后就卡…死了

macOS系统内存不足强制退出提示

——对不起，我的Agent，是我的电脑配不上你了 🙂‍↕️

更新快乐，也感谢你的Star与分享:)

👉 Agent Skill安装地址：https://github.com/eze-is/web-access

上一篇：Pencil与Claude Code实战：自然语言画原型并一键生成React前端代码
下一篇：TCP三次握手异常排查：端口不足与连接队列溢出的性能影响及解决方案

智能代理, 浏览器自动化, CDP, 技能设计, 经验分享