在人工智能编码领域,曾存在一种观点:AI或许能编写辅助性的“脚手架”代码,但在涉及核心算法与复杂业务逻辑的创造性工作上,人类专家的智慧仍不可或缺。然而,这一“最后防线”正面临来自Google 人工智能研究的前沿挑战。
DeepMind 的最新研究展示了一项更为深入的探索:他们构建了一个由大语言模型驱动的智能体,直接对算法本身的逻辑进行改写与进化,而非仅仅是调整参数。这个名为 AlphaEvolve 的系统,将算法代码置于类似生物进化的循环中——自动生成变体、在真实博弈环境中测试、根据性能评估进行筛选、并以此为基础生成下一代,全程无需人工介入微调或试错。
这项研究的成果是全新的多智能体学习算法,它们在多项测试中超越了由人类专家手工精心打磨的现有最佳版本。更重要的是,这些算法所采用的机制往往是非直观的,属于人类专家凭借经验和直觉难以穷举发现的解决方案。
从算法框架到全自动进化
研究团队并未让模型“从零开始”创造算法,而是选定了两个成熟且理论扎实的多智能体学习框架作为进化的起点:
- 反事实后悔最小化(CFR):一种用于不完全信息博弈的经典算法族,通过递归方式累积“后悔值”并构建平均策略。
- 策略空间响应预言(PSRO):一种基于种群的训练算法,通过迭代计算最优响应并求解元策略来不断扩展策略空间。
在过去,基于这些框架开发出高性能的变体算法,严重依赖于研究者的经验和大量的手动调参。DeepMind 的方法是将这些算法的核心逻辑拆解成一系列可被改写的 Python 函数模块,例如“后悔值累积规则”、“策略更新方式”、“元策略求解器逻辑”等。
研究人员只将这些“关键决策逻辑”模块开放给大语言模型进行修改,而算法的整体框架保持固定。这相当于为进化过程定义了明确的“基因”搜索空间。
随后,真正的“进化”循环启动:
- 生成:以大语言模型(基于 Gemini 系列模型)为核心,对当前代的算法代码进行语义上有意义的改写,生成多个变体。修改聚焦于控制流、更新规则等核心逻辑。
- 运行:将每个改写后的算法版本自动编译,并投入一组预设的博弈环境(如库恩扑克、勒杜克扑克等)中进行实战测试。
- 评估:使用“可利用度”(Exploitability)等指标对每个变体在博弈中的性能进行自动打分,量化其接近纳什均衡的程度。
- 选择:根据评估分数,实施“优胜劣汰”,保留性能最佳的算法变体。
- 再生:以表现优异的算法作为父代,进入下一轮循环,重复生成新的变体。
这个 生成 → 运行 → 评估 → 选择 → 再生 的闭环流程完全自动化,人类仅负责初始框架的定义和最终评价标准的设定,不参与中间任何环节的调参或筛选。研究论文中展示的一张示意图清晰描绘了这一工作流:系统在多种牌类游戏中测试生成的算法,根据收敛速度和最终得分进行评估,并通过漏斗选择机制筛选出最优个体进入下一代。
超越人类直觉的算法发现
通过上述进化流程,AlphaEvolve 成功发现了两个全新的高性能算法变体。
1. VAD-CFR:在后悔最小化框架上的突破
AlphaEvolve 进化出的新算法被命名为 VAD-CFR。它没有进行浅层的参数调整,而是直接修改了CFR算法中“后悔值如何累积、如何进行折扣、何时开始计算平均策略”等核心逻辑。
它引入了几项非直观的机制,例如:
- 波动性敏感折扣:根据后悔值序列的波动性动态调整折扣因子,而非使用固定值。
- 强制一致性乐观:一种增强策略更新一致性的机制。
- 硬启动策略累积计划:在迭代前期(例如前500轮)采用一种“蓄力”模式,之后才全力计算平均策略。系统甚至自发发现了这个“预热阈值”,而并未被告知评估总迭代次数为1000轮。
其性能在一系列图表中得到了直观展示。在包括训练游戏和更具挑战性的测试游戏(如4人库恩扑克、6面骰子的说谎者骰子游戏)中,VAD-CFR(在图中通常为灰色或特定颜色曲线)的表现均超过了CFR、CFR+、DCFR、PCFR+等所有由人类设计的最先进基线算法。
这些图表以CFR迭代次数为横轴,以可利用度(对数坐标)为纵轴。结果显示,VAD-CFR的曲线下降更快,且最终收敛到的可利用度值更低。特别是在某些游戏中,约500次迭代后曲线下降速度明显加快,印证了其“硬启动”机制的有效性。这表明VAD-CFR的优越性源于其算法结构层面的创新,而非对特定训练环境的过拟合。
2. SHOR-PSRO:重新设计元求解器
在PSRO框架下,AlphaEvolve 进化出了 SHOR-PSRO 算法。它的主要创新在于重新设计了用于求解种群元策略的“元求解器”。
传统方法需要在“探索多样性”和“逼近均衡”之间进行静态的、通常是人工设定的权衡。SHOR-PSRO 则引入了一种混合型元求解器,它将乐观后悔匹配与一个经过平滑的、温度控制的最佳纯策略分布进行线性混合。通过在训练过程中动态退火(衰减)这个混合因子和多样性奖励,算法能够自动化地完成从初期鼓励种群探索到后期专注均衡寻找的过渡。
性能对比图显示,在多种博弈的PSRO迭代过程中,SHOR-PSRO(图中常为棕色线)的可利用度下降速度普遍快于Uniform、Nash、AlphaRank、PRD、Regret Matching (RM) 等传统静态元求解器,并且在迭代结束时达到更低的均衡误差。在更复杂的测试游戏上,其优势依然保持,证明了其良好的泛化能力。
业界反响与未来展望
这项名为《Discovering Multiagent Learning Algorithms with Large Language Models》的论文一经发布,便在技术社区引发了广泛讨论和深入思考。
有开发者评论道:“这就像是教一个孩子读书,然后看着它自己编写教科书。” 这形象地概括了从“使用工具”到“创造工具”的范式转变。另一位网友则指出:“这看起来像是DeepMind手中的一张王牌,我认为它可能导致谷歌‘赢得比赛’。” 强调了其在强化学习和算法自动化竞赛中的潜在战略价值。
同时,也有声音开始关注更长远的影响。有观点提出:“希望它首先设计一个全面的伦理引擎,以在ASI(超级智能)爆发之前将其与良好价值观对齐。” 这反映了当AI系统开始设计更强大的AI学习算法时,对其内在安全性与对齐问题的迫切关注。
结语
DeepMind 的 AlphaEvolve 项目标志着算法研发自动化进入了一个新阶段。它不再局限于在固定算法框架内优化参数,而是能够直接探索和重构算法本身的逻辑核心,发现人类专家未曾设想的高效机制。这项研究不仅为多智能体强化学习领域带来了性能更优的新算法,更开创了一种利用大语言模型进行“算法发现”的通用框架。随着这类技术的成熟,我们或许将见证一个由AI协助甚至主导的基础算法创新时代。
参考资料
[1] DeepMind新论文炸锅:AI全自动进化算法,写出专家都想不到的解,网友:这可能就是“王牌”, 微信公众号:mp.weixin.qq.com/s/pm-9M7vPXuCMBneWKup1zQ
版权声明:本文由 云栈社区 整理发布,版权归原作者所有。