在量化金融领域,一个核心且持久的挑战是如何从嘈杂、高维的市场数据中系统性地提取具有预测能力的信号。Alpha因子挖掘正是应对这一挑战的主要方法,其目标在于构建多元化的因子组合,以期获得超越市场的稳定收益。近年来,随着计算能力的提升和算法的发展,自动化的Alpha因子发现方法应运而生,但现有范式在全局视角和搜索效率上仍有局限。
具体来说,当前主流的自动化方法可归纳为两种范式:解耦因子生成(DFG) 与 迭代因子进化(IFE)。DFG范式专注于独立地生成新因子,虽便于广泛探索,但因子之间关系薄弱,难以形成系统性的知识积累;而IFE范式虽然通过迭代优化现有因子,却往往缺乏全局结构视角,容易陷入局部最优或产生冗余搜索。这些方法普遍忽视了一个关键问题:因子池并非孤立个体的集合,而应被视作一个具有内在进化逻辑的动态网络。
本文介绍了一种创新的解决方案——AlphaPROBE框架。它将Alpha因子挖掘问题重新定义为在一个有向无环图(DAG) 上进行战略性导航与创建的过程。该框架通过一个由贝叶斯因子检索器和DAG感知因子生成器组成的闭环系统,实现了高效且富含结构信息的因子搜索。简单来说,它不仅“生”因子,更懂得如何“优生优育”,利用全局进化历史来指导每一步的探索。
在技术社区如 云栈社区 中,对于结合 数据挖掘 与复杂系统建模的前沿方法讨论日益热烈。AlphaPROBE正是这一交叉领域的典型实践。
方法概览
AlphaPROBE的核心思想是将因子池组织成一个DAG,其中节点代表因子,边表示“父子”衍生关系。整个框架旨在解决两个紧密耦合的子问题:
- 战略检索:在图中寻找最优的父因子,以最大化其未来可能生成的子因子的预期质量。

- 目标生成:利用所选父因子及其在图中的上下文信息(即其“家谱”),生成高质量、新颖的子因子。

下图展示了AlphaPROBE的整体架构,它是一个由贝叶斯因子检索器与DAG感知因子生成器构成的闭环系统。

贝叶斯因子检索器
如何从众多因子中挑选出最具潜力的“种子”进行下一步演化?这本质上是一个探索与利用的权衡问题。AlphaPROBE的贝叶斯因子检索器为此提供了一个原则性的解决方案。
检索器的任务是为候选父因子 F 评分,该分数正比于其产生高质量后代 F_new 的概率。在贝叶斯框架下,该概率可分解为:

检索器最终分别对叶节点和非叶节点进行排序,选取全局分数最高的 k 个因子作为父因子候选,传递给下一阶段的生成器。
DAG感知因子生成器
当检索器选定父因子 F_p 后,生成器负责在其基础上创造新因子。与简单的随机变异不同,AlphaPROBE的生成器是一个三阶段、充分感知DAG结构的工作流:
- 分析师:分析父因子
F_p 的完整进化路径 T(F_p),并制定出一组抽象的修改策略 {S_1, ..., S_m}。

- 执行者:将每条抽象策略
S_i 具体化为一个候选因子表达式 F'_c,i。这里通常会利用强大的 大语言模型 来理解和执行复杂的代码生成与修改指令。

- 验证器:检查生成的候选表达式在语法和预设约束(如长度)上的有效性,过滤掉无效部分。最终通过验证的新因子集合
{F_c} 会被加入到DAG中,作为 F_p 的子节点,从而完成一次进化循环。
实验与结果
为了验证AlphaPROBE的有效性,研究团队在沪深300(CSI300)、中证500(CSI500)和中证1000(CSI1000)三个中国A股代表性数据集上进行了全面实验。
实验设置:
- 评估指标:涵盖预测能力(如信息系数IC、信息比率ICIR)和投资组合构建表现(如年化收益率AR、最大回撤MDD、夏普比率SR)。
- 对比基线:包括人工专家因子池(Alpha158)、传统遗传规划(GP)、以及多种最新的基于DFG和IFE的先进方法(如AlphaGen, AlphaForge, AlphaAgent等)。
- 实现细节:采用DeepSeek V3.1作为骨干大语言模型,池容量设置为50,关键超参数深度惩罚γ和检索惩罚ω分别设为0.05和0.10。
主要结果:
下表展示了AlphaPROBE与所有基线在三个数据集上的性能对比。加粗和下划线数字分别表示最佳和次佳结果。

从结果中可以得出两个核心结论:
- 卓越的预测能力:AlphaPROBE在IC、RIC、AR等核心预测指标上全面领先,表明其挖掘出的因子对未来股票收益具有更强的预测性。
- 出色的稳定性与鲁棒性:AlphaPROBE在ICIR、RICIR、SR等风险调整后指标上表现更优,同时最大回撤MDD更低,证明其对于市场制度变化具有更强的适应性和稳定性。
回测表现:
在CSI300上的实际回测曲线进一步印证了其有效性。如下图所示,AlphaPROBE构建的投资组合在大部分时间里累计回报领先,并在市场压力时期(如2023年末至2024年初的熊市)表现出更好的抗跌性和恢复能力。

消融分析:
研究通过系统的消融实验验证了框架各个组件的必要性。下表结果显示,无论是用随机/启发式检索器替代贝叶斯检索器,还是移除先验、似然、拓扑惩罚等关键设计,又或是用简单的思维链生成器替代DAG感知生成器,都会导致性能的显著下降。

参数敏感性与效率:
参数敏感性分析表明,AlphaPROBE在超参数γ和ω的合理范围内(如0.05-0.15)表现稳健。效率分析则显示,得益于检索器对全局拓扑信息的利用,AlphaPROBE能够以更少的训练迭代次数达到更优的性能,收敛速度显著快于其他基于大语言模型的基线方法。


总结与展望
本文提出的AlphaPROBE框架,通过将Alpha因子挖掘建模为在有向无环图(DAG) 上的战略导航问题,创新性地整合了贝叶斯因子检索与DAG感知的因子生成,形成了一个高效的闭环发现系统。实验证明,该框架不仅能挖掘出预测能力更强的因子,还能构建出层次清晰、稳定性高的因子库,显著提升了自动因子发现的效率与质量。
未来,这一框架有望从传统的日频量价因子挖掘,拓展至高频交易、基本面因子合成等更广阔的场景,为量化金融的自动化研究提供新的强大工具。