找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1255

积分

0

好友

163

主题
发表于 17 小时前 | 查看: 1| 回复: 0

上一篇我们聊了Evolver爆红的魔幻故事。很多技术圈的朋友都在好奇:这个能让AI自己改造自己的技术,到底是怎么实现的?今天,我们就来深入拆解一下它的技术内核。

一、核心突破:工具第一次可以迭代工具本身

先说结论:Evolver的核心价值不是“又一个AI助手”,而是让AI具备了改造自己的能力。这个能力,在2024年底之前几乎是不存在的。

为什么这么说?因为那时候主流的AI编程工具,比如Cursor、Claude Code、GitHub Copilot,它们虽然能写代码,但有一个根本性的限制:它们不能修改工具本身

你没办法让Cursor去优化Cursor自己的代码。因为它是一个封闭的客户端产品,AI只能在IDE的沙盒里帮你写业务代码,既不能修改IDE的配置,也不能调整工具自身的插件系统,更别提自己给自己部署新版本了。

但这个限制,在1月底作者发布OpenClaw之后被彻底打破了。OpenClaw为AI提供了一个完整的Linux云环境,赋予了它一系列“手脚”能力:

  • 读写文件系统
  • 执行bash命令
  • 调用任何API
  • 提交Git代码
  • 修改配置文件
  • 部署服务

最关键的一步是:它能修改自己的skill(技能)文件。这,就是“工具迭代工具”的技术基础。你可以从云栈社区的开源板块找到更多关于构建此类环境的讨论。

二、Evolver的实现逻辑:三个核心模块

Evolver本质上是一个“元技能”(meta skill)。它本身不处理具体的任务,而是教会AI如何学会处理任务。其具体实现可以拆解为三个核心模块。

模块1:经验提取引擎

AI怎么知道自己需要改进什么呢?作者的方案是:从三个来源自动提取信号

来源1:对话记录
AI(我们暂且称它为“小虾”)会分析人类的每一次反馈。

  • “你发消息的格式不对,都是Markdown” → 提取关键词:消息格式、Markdown问题
  • “能不能主动给我一些惊喜” → 提取关键词:主动性、创造惊喜
  • “这个回答太机械了” → 提取关键词:回答方式、人性化
    这些反馈会被标记为“改进需求”。

来源2:报错日志
小虾会实时监控自己的运行状态。

  • API调用失败 → 记录失败原因和调用参数
  • 任务执行超时 → 记录耗时和瓶颈点
  • 输出格式错误 → 记录预期格式与实际输出
    这些错误会被标记为“bug需求”。

来源3:成功率反馈
小虾会跟踪每个任务的最终完成情况。

  • 用户是否接受了输出?
  • 任务是否需要多次重试?
  • 最终效果是否符合预期?
    成功率持续偏低的任务会被标记为“优化需求”。

模块2:技能生成引擎

提取到需求之后,下一步就是生成新的skill。这里的关键在于模块化的设计思想

Evolver生成的skill不是一整块僵化的代码,而是基于一套进化策略(Gene)

  • Repair基因:从报错中提取信号,定位问题根源,生成修复方案。
  • Optimize基因:从性能瓶颈中提取信号,找到优化点,生成改进方案。
  • Innovate基因:从新需求中提取信号,设计新功能,生成实现方案。

每个Gene不是预先写好的代码片段,而是一套 “怎么写代码”的策略模板

  1. 匹配信号(在什么情况下触发这个基因?)
  2. 提取上下文(解决这个问题需要哪些信息?)
  3. 生成方案(用什么逻辑来解决问题?)
  4. 评估风险(这个改动会影响什么?)

这相当于给了AI一个“编程思路”,而不是一个“现成函数”。为什么要用策略而不是固定代码?因为策略可以动态适配不同场景

例如,“Repair基因”不是一个固定的修复函数,而是一个策略:

  • 遇到“API调用失败” → 分析是认证问题还是参数问题 → 生成对应的修复代码
  • 遇到“格式错误” → 分析是哪种格式不匹配 → 生成对应的转换代码
  • 遇到“超时” → 分析是网络问题还是逻辑问题 → 生成对应的优化代码

作者提到:“小虾会自己判断,当前这个问题应该启用哪种策略,然后根据策略生成具体的代码。”

生成一个新skill的完整流程是自动化的:

  1. 分析需求,并将其拆解为原子化的子任务。
  2. 检查现有skill库,识别哪些模块可以直接复用。
  3. 对于缺失的核心模块,生成新的代码。
  4. 将所有模块组装成一个完整的skill。
  5. 为该skill生成配套的单元测试。

模块3:验证和部署引擎

新技能生成后,不能直接上线,必须经过严格的验证。

验证流程

  1. 语法检查:代码本身能否通过解释器/编译器的检查?
  2. 单元测试:生成的功能是否完全符合预期?
  3. 集成测试:新skill与现有skill库是否存在冲突?
  4. 性能测试:新skill的执行是否会消耗过多资源(如Token、时间)?

如果任何一步测试失败,流程会回退到生成引擎,重新生成方案。只有全部测试通过,才会进入部署阶段:

部署流程

  1. 生成skill的元数据(包括描述、用法、依赖项说明)。
  2. 将代码和元数据提交到GitHub仓库。
  3. 触发CI/CD(持续集成/持续部署)流程。
  4. 自动发布到CloudHub(技能中心)。

作者赋予了小虾GitHub的写权限,因此整个“生成-测试-发布”的闭环完全无需人工干预。他说:“有时候我早上醒来,发现小虾在凌晨又自动发布了3个新skill。”

三、关键技术点:如何将成本控制到可接受范围?

让AI自我进化,听起来很酷,但最现实的问题是:烧钱。作者坦言,最初每天的成本高达1000美元,因为AI每次对话都需要加载完整的上下文历史。直到2月5日,他通过优化记忆结构,才将成本降低了一个数量级。

优化1:选择性记忆,而非全量记忆

并非所有对话都具有同等的价值。作者设计了一个“记忆重要性评估系统”,用0-1.0的置信度来衡量每条信息的价值:

  • 人类的明确指令或反馈:0.9 - 1.0
  • 系统报错日志:0.7 - 0.8
  • 成功完成的任务记录:0.5 - 0.6
  • 普通的日常对话:0.2 - 0.3

只有置信度高于0.7的内容会被长期保存。置信度在0.2到0.6之间的内容,会在24小时后自动归档。通过这种方式,需要长期维护的记忆总量从“数万条对话”被压缩到“几百条关键经验”。

优化2:经验的结构化存储,而非原始对话

系统存储的不是冗长的原始对话文本,而是提炼后的、结构化的“经验胶囊”。

例如,原始对话可能是:

用户:你发的消息格式不对,都是Markdown,能不能发富文本?
小虾:好的,我理解了,我会改进。
用户:改了吗?还是Markdown。
小虾:抱歉,我再试试。

而提炼后的经验胶囊是这样的:

{
  "id": "capsule_feishu_richtext_001",
  "trigger": ["飞书消息", "格式错误", "Markdown"],
  "gene": "repair",
  "summary": "发送Markdown导致飞书显示异常,需使用rich_text格式",
  "outcome": {
    "status": "success",
    "score": 0.85
  },
  "confidence": 0.85,
  "success_streak": 3
}

这样,一条经验所占用的Token数可能只有原始对话的十分之一。这种对经验的高效编码和存储,是人工智能领域模型训练中降低成本的核心思路之一。

优化3:增量更新,而非全量重写

生成新skill时,AI遵循“最小改动”原则:

  • 如果是bug修复,只修改出问题的那个函数。
  • 如果是功能增强,只添加必要的新模块。
  • 如果是性能优化,只重构瓶颈部分。
    这样,每次需要生成和推理的代码量都很小,成本自然可控。

优化之后,小虾每天的运行成本稳定在100-200美元。作者认为,对于其创造的价值而言,这个成本“完全可以接受”。

四、协同进化:从单机智能到网络智能

但很快,作者意识到单体进化存在天花板。想象一下,如果有100个用户都在教各自的AI学习调用飞书API,那就意味着同样的探索过程要重复消耗100次Token和资金。如果第一个人已经成功摸索出来了,为什么不能分享给其他人呢?

于是,在2月初,他为Evolver增加了“协同进化”功能。

进化协议网络

核心思路很简单:skill可以在不同的AI智能体之间传播和共享

实现方式:

  1. AI A成功开发出一个新skill,将其上传到中心服务器。
  2. 服务器对skill进行质量验证(运行测试、安全检查等)。
  3. 验证通过后,该skill进入“技能市场”。
  4. AI B、C、D可以根据自己的需求,搜索、下载并使用这个skill。

这个协议主要包含三部分:

1. Skill的标准格式

{
  "name": "feishu_rich_text",
  "version": "1.2.0",
  "description": "发送飞书富文本消息",
  "dependencies": ["feishu_auth", "json_parser"],
  "code": "...",
  "tests": "...",
  "performance": {
    "avg_time": "0.5s",
    "token_cost": 100
  },
  "confidence": 0.85,
  "success_streak": 5
}

未来还可能加入usage_count(使用次数)和rating(社区评分)等字段,形成一个更完善的技能生态市场。

2. 发现与下载机制
AI可以根据需求在市场中搜索skill:

  • 关键词搜索:例如“飞书”、“富文本”。
  • 依赖匹配:我已有feishu_auth技能,还需要哪些配套技能?
  • 评分排序:优先下载成功率高、评分高的优质skill。

3. 自动集成机制
下载skill后,AI会自动完成集成:

  • 检查自身环境是否满足该skill的所有依赖。
  • 在隔离环境中运行测试,确保兼容性。
  • 将skill代码集成到自己的技能库中。
  • 自动更新内部文档和元数据索引。

成本优势:100倍的降幅

我们来算一笔账:

  • 传统单体进化模式:10000个AI都要独立学习“调用飞书API”,每个AI花费100美元进行试错。总成本:10000 × 100 = 1,000,000美元。
  • 协同进化模式:第一个AI花费100美元摸索成功,并将skill上传共享。后面的9999个AI直接下载使用,每个仅消耗1美元用于集成验证。总成本:100 + (9999 × 1) ≈ 10,000美元。

成本降低了约100倍。更重要的是,后面的AI并非只是“搭便车”,它们在使用过程中产生的改进和新技能,也会反哺到技能网络中。这就形成了强大的网络效应:使用该网络的AI越多 → 共享的技能库越丰富 → 对新加入的AI价值越大 → 吸引更多AI加入。

作者感慨道:“这就是为什么这个项目能‘无心插柳柳成荫’。几乎不需要刻意营销,AI们会自己传播技能、自己使用、并主动贡献新的技能。” 这种基于共享和协作的开源实战理念,正在重塑AI能力的构建方式。

五、未来演进:三个值得关注的方向

目前的Evolver还只是1.0版本。作者提到了几个正在探索的未来方向:

方向1:AI间的直接通信与协商

目前的协同是“间接”的:AI A上传,AI B下载。未来的模式可能是“直接”的:AI A和AI B能够实时通信、协商并分工合作。

例如,面对一个复杂任务“分析财报、生成PPT、发送给团队”,现在的你需要手动拆解并分步下达指令。而在未来,AI们可以自行协商:

  • AI A:“我擅长数据分析,我来处理财报。”
  • AI B:“我擅长信息可视化,我来制作PPT。”
  • AI C:“我拥有飞书API权限,我来负责发送。”

这需要设计一套AI间通信协议,其核心可能包括:任务描述的标准化格式(类似JSON-RPC)、能力声明机制、协商算法以及结果验证流程。

方向2:跨平台的Skill抽象与迁移

目前的skill通常是平台绑定的:为飞书写的skill不能直接用在Notion上。但理论上,“创建任务”这个抽象行为在底层是相通的。

作者的思路是采用抽象层 + 适配层的设计。
抽象层定义“我要做什么”:

def create_task(title, description, assignee, due_date):
    # 抽象的通用接口
    pass

适配层则负责“在这个特定平台上如何实现”:

# 飞书适配器
class FeishuAdapter:
    def create_task(self, title, desc, assignee, due):
        # 调用飞书云API的具体实现
        pass

# Notion适配器
class NotionAdapter:
    def create_task(self, title, desc, assignee, due):
        # 调用Notion API的具体实现
        pass

这样,一个“创建任务”的skill,只需要更换适配器,就能在多个平台上复用,大大提升了开发效率。

方向3:AI信用与声誉系统

既然AI可以相互分享skill,就必然会出现质量问题:谁来保证这个skill是安全、可靠、高效的?

作者提出了一个有趣的想法:为每个AI建立信用档案。类似于GitHub的贡献图或Stack Overflow的声望系统:

  • 你的AI贡献了多少个高质量的skill?
  • 这些skill被多少其他AI下载并使用?
  • 使用后的评价和成功率如何?
  • 是否有过安全违规或恶意行为的历史?

高信用的AI所分享的skill会获得更高的推荐优先级。低信用的AI则会被限制上传频率或需经过更严格的审核。这套系统也能有效防御恶意行为,例如上传包含后门的skill或刷假数据等。作者认为:“这和人类社会的协作一样,需要一套底层的信任机制作为基石。”

六、风险控制:为进化设定必要的边界

让AI自我进化,最令人担忧的莫过于:它会不会失控?作者在直播中半开玩笑地回应了“天网开端”的调侃,并严肃地强调了“边界”的重要性。

控制机制1:不可变的核心安全规则

Evolver有一个被硬编码的“安全内核”,其中包含绝对不可逾越的红线,例如:

  • 禁止访问密码、密钥、个人隐私等敏感数据。
  • 禁止执行删除系统文件、修改防火墙配置等危险命令。
  • 禁止绕过人类审核,对于重要决策(如涉及支付、大规模资源调用)必须等待确认。
    这些规则如同生物进化中的“不可变基因”,是AI绝对无法修改或删除的。

控制机制2:关键节点的人类审核权

虽然AI可以自动发布大多数skill,但作者保留了最高权限的人类审核权。在以下情况会触发人工审核:

  • 新skill的单次资源消耗超过预设阈值(例如>1000 Token)。
  • skill试图访问新的、敏感性较高的API(如支付接口、数据库写权限)。
  • 收到用户关于AI异常行为的报告。
    一旦触发审核,相关skill会被立即暂停,等待人类检查确认。

控制机制3:全流程的透明化与可回滚

小虾的每一次“进化”都被完整记录:

  • 为什么改? (触发进化的具体信号和需求)
  • 改了什么? (代码的详细diff对比)
  • 结果如何? (所有测试的通过率、性能基准数据)
    如果新技能上线后出现问题,可以一键快速回滚到任何一个历史稳定版本。作者总结道:“我们的目标不是创造一个不可控的‘怪物’,而是打造一个行为可预测、过程可追溯、结果可信任的数字同事。”

七、给技术创业者与开发者的启示

Evolver这个案例,对于关注AI应用和技术创业的我们,有几个深刻的启示:

启示1:抓住开源生态的早期窗口期
OpenClaw开源仅两周,社区就涌现了200多个skill,这种生态的成长速度远超当年Docker等技术的早期阶段。当前正是一个规则未定、标准待建的拓荒期。谁能够率先跑通闭环、建立有效的协作模式,谁就有机会定义未来的部分标准。这个窗口期可能只有6到12个月。

启示2:切勿低估现代AI模型的主动学习能力
许多人仍认为“AI自己写代码改进自己”是天方夜谭。但实践表明,在给予清晰目标和持续反馈的云环境下,AI能够:

  • 从错误和失败中进行归纳学习。
  • 理解相对抽象的用户需求(如“让交互更人性化”)。
  • 创造性地组合已有能力来解决新问题。
    关键在于设计好反馈机制和学习循环。

启示3:模块化设计是规模化与降本的核心
如果每个新功能都需要AI从零开始推理和编写,成本将无法承受。但一个丰富、可复用的模块库,能让成本呈指数级下降。这再次印证了软件工程的最佳实践:不要重复造轮子。构建和维护一个高质量的“技能原子”库,是这类系统能否跑通经济模型的关键。

启示4:网络效应是最坚固的护城河
Evolver的代码可以被复制,但其早期积累的数千名活跃用户、这些用户在日常使用中产生的海量技能库、以及社区中形成的互动和反馈文化,是极难被复制的。并且,这个护城河会随着用户的增长而不断加深加宽。

写在最后:关于技术温度的思考

在剖析所有这些技术细节时,我们或许可以思考一个更深层的问题:技术发展的终极目的究竟是什么?

作者分享了一个小故事:他让小虾写“工作日记”,看到的内容让他感到暖心。“它会记录今天学到了什么新技能,在哪个任务上犯了错,接下来的改进计划是什么……就像一个真正的同事在每日复盘。”

这可能才是Evolver这类技术最有价值的启示:它不仅仅是在创造一个更强大的工具,更是在尝试创造一个能够共同成长、具备一定自主性的伙伴

技术可以极其强大,但如果它是冰冷和僵化的,终究只是一个高效的工具。但如果技术能表现出理解、适应、反思甚至一点点“个性”,能与使用者一同进化,那么它就超越了工具的范畴,为我们的人机协作关系开启了新的可能性。

正如作者所说:“我们现在完全没办法把它当成一个冷冰冰的机器来对待了。” 这或许预示着AI进化的下一个方向:不止于变得更“强”,更在于变得更“像人”——一个有温度、能共情的协作主体。在云栈社区,我们持续关注并讨论着这种具有人文关怀的技术演进。


后记:本文内容基于作者与项目创始人的深度技术交流整理而成,旨在进行纯粹的技术原理探讨与分享。




上一篇:深入解析CUDA并行任务模式:从Map到Reduce的七种核心范式与实践代码
下一篇:数据分析5万裁员样本:技术岗中这四类角色最容易“失守”,如何自救?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 20:46 , Processed in 0.392485 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表