找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2535

积分

0

好友

347

主题
发表于 13 小时前 | 查看: 0| 回复: 0

2026年刚开局,这世界就挺魔幻的。比起关注什么社交媒体的喧嚣,我朋友圈里那位万年写Java的老哥,连夜在闲鱼收了两台M4 Mac Mini,这事儿反而更让我摸不着头脑。问他买来干嘛,他只神神秘秘地回了俩字:“跑 Clawdbot。”

如果你这两天没刷到过这个词,那可能是真断网了。在“AI代理”这个概念都快被炒馊了的2026年,Clawdbot 能重新点燃开发者的热情,纯粹是因为它的路子太野了。

Clawdbot 官方介绍图:一个能真正做事的AI

它可不是那种只会陪你闲聊、讲段子的聊天机器人。它更像是一个能让你通过 WhatsApp 或者 Telegram,直接“远程接管”物理世界的私人网关。

这玩意儿有些神奇的能力:你可以在手机聊天应用里发个指令,然后你闲置的电脑、旧手机就会开始干活,并且实时把状态同步回你的手机。这“干活”可不只是写代码、改 Bug 或做部署,它能处理很多日常琐事,比如清理邮箱、发送邮件、管理日历,甚至网购。你有没有发现,它就像是一个万能连接器,或者说,真正成为了一个替你执行具体任务的私人助理。

所以,这两天我啥也没干,把它的源码扒了一遍,连 WebSocket 通信日志都抓出来分析了。咱们不聊那些虚的,直接看看这玩意儿到底是怎么运作的。

一、Gateway-Node:一个私人化的C2架构

看到架构图的第一眼,我就笑出了声:这不就是网络安全里常说的 C2(命令与控制)架构吗? 只不过,这次控制端和被控端都是你自己的设备。

Gateway(网关)就像个总调度中心,死守着 18789 端口,手里攥着你所有社交软件(如 WhatsApp、Telegram)的连接。不管你在哪个应用上发送指令,最终都会汇总到这里。

Clawdbot 系统架构图:Gateway与Nodes

而 Node(节点)才是真正干活的“苦力”。你的主力 Mac、淘汰的安卓旧手机、吃灰的树莓派,都能成为它的“肉鸡”(当然,是你自愿的)。

想象一下,你躺在床上发一句“帮我重启下服务器”,Gateway 眼皮都不眨一下,直接通过 WebSocket 长连接捅一下书房里的 Mac,执行 system.run 命令。这背后是清晰的 JSON 协议:

// 连接握手
{
  "type": "connect",
  "role": "node",
  "deviceToken": "xxx"
}

// 命令调用
{
  "type": "request",
  "method": "node.invoke",
  "params": {
    "command": "system.run",
    "args": {...}
  }
}

// 响应
{
  "type": "response",
  "id": "xxx",
  "result": {...}
}

没有什么花里胡哨的“无缝云协同”,就是简单、粗暴、高效的长连接通信。这种把自家闲置设备组成一个私人可操控网络的感觉,说实话,比被云服务商各种条款限制要自在得多,也引发了很多关于开源实战项目如何重塑个人工作流的思考。

二、浏览器控制:Playwright 的“暴力”美学

以前写自动化机器人最头疼什么?申请各种网站的 API Key,处理复杂的 OAuth 认证。

Clawdbot 对此表示不屑。它直接集成了 Playwright 和 CDP(Chrome DevTools Protocol)。这哪里是在“访问”网页,这分明是给 AI 装上了一双可以操作图形界面的“手”。

举个例子,你想退订那些烦人的营销邮件。Clawdbot 根本不会去调什么 Gmail 的官方 API(还得申请、授权,麻烦)。它的做法是:直接启动一个隐身浏览器,像真人一样“看”页面,识别出那个藏得很深的“Unsubscribe”按钮,然后移动光标点击它。(当然,前提是你已经保存了登录态,不然谁也自动不了。)

浏览器自动化退订服务流程图

这种操作路径看起来有点“笨”,效率也可能不如直接调用 API 高,但它有一个无可比拟的优势:通杀。它绕过了所有 API 限制,回归到最原始也是最通用的视觉交互层。这种带着点“暴力”色彩的美学,我其实是服气的。

三、Exec 工具:在刀尖上跳舞

如果说浏览器控制还停留在应用界面层,那 exec 工具就是直插系统心脏的手术刀。它允许 AI 代理直接在你的宿主机上执行 Shell 命令。

Clawdbot 工具系统详解图

开发者当然知道这有多危险。所以 Clawdbot 设计了一个关键的安全机制:交互式审批。当 AI 试图运行像 npm install some-package 这种你无法预知后果的命令时,你的手机上会立刻弹出一个审批请求:“批准执行吗?”

1. 代理请求执行: npm install some-package
        ↓
2. exec 工具返回: { status: "approval-pending", approvalId: "xxx" }
        ↓
3. 用户在手机App上收到审批请求
        ↓
4. 用户批准 → 命令执行
   用户拒绝 → 命令取消

这不仅是一个安全阀,更是一种奇妙的体验。想象一下,你在地铁上掏出手机,按下“批准”按钮,然后知道家里那台电脑正在替你疯狂跑代码——这种对计算资源的绝对掌控感,才是真正的“Root 权限”。

四、记忆系统:务实派的混合搜索方案

现在市面上是个 RAG(检索增强生成)系统都在吹捧向量数据库。Clawdbot 倒没那么迷信。它采用了一个更务实的方案:BM25(经典关键词搜索)加向量搜索的混合架构。

混合记忆管理器架构图:BM25 + Vector Search

为什么这么做?因为纯向量搜索有时候确实不够精准。比如你想搜索一个非常具体的变量名 x_factor_v2,纯向量模型可能会给你找出一堆“语义相关”但完全不是这个词的废话。而传统的 BM25 关键词搜索却能准确定位。Clawdbot 这种“混搭风”,显然是实践中被坑过后总结出的经验,非常务实。

写在最后

说实话,Clawdbot 的代码风格算不上优雅,有些配置文件也能把人绕晕(比如那个 clawd 的浏览器配置,我折腾了半小时才搞明白)。

但这几天用下来,感觉非常微妙。在2026年,我们早已被云服务的高昂账单、封闭的生态系统和随时可能变更的服务条款搞得疲惫不堪。Clawdbot 身上那种“数据在本地、算力在桌底、控制权在手里”的粗粝感,反而散发出一种别样的魅力。

它不完美,甚至可以说有点“危险”。但当你通过 Telegram 远程指挥家里的电脑干完一堆杂活,它轻描淡写地回复一句“搞定了”的时候,你会觉得,这种粗糙而直接的掌控感,才是赛博朋克该有的味道。这种将前沿 AI 能力与个人设备深度结合的趋势,正是很多开发者正在探索和热议的方向。如果你想了解更多类似的硬核技术拆解和实战分享,欢迎来 云栈社区 逛逛,这里聚集了一群喜欢折腾的同行。

引用链接




上一篇:轻量级多集群K8s管理面板Kite:开源安装与可视化监控指南
下一篇:Windows 11设备加密:微软承认可向执法机构提供BitLocker恢复密钥
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-28 18:09 , Processed in 0.356230 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表