近期,清华大学的研究团队提出了一种名为 FactorMiner 的新型智能体框架,用于金融领域中Alpha因子的自动化挖掘。这项研究题为《FactorMiner: A Self-Evolving Agent with Skills and Experience Memory for Financial Alpha Discovery》,旨在解决传统方法在搜索复杂性、知识积累匮乏和可解释性约束上的固有挑战。
1. 核心挑战与设计思路
在量化投资中,高效、可解释的Alpha因子是构建策略的基石。然而,自动化因子挖掘面临三重障碍:
- 巨大的搜索复杂性:由算子组合构成的公式化表达式空间,其规模随着算子和参数的增加呈组合级数爆炸。
- 知识积累匮乏:传统的遗传规划或强化学习方法无法跨探索会话(Session)保留和重用洞察,导致大量重复试错。
- 可解释性约束:不同于黑盒神经网络,金融实践要求因子必须是透明、可审计的数学公式,以满足合规与风控需求。
现有的方法通常孤立地优化单个因子,而忽视了新因子与整个因子库的交互,导致大量冗余发现。FactorMiner 的设计哲学是引入一个自进化的智能体,它通过模块化技能架构和结构化经验记忆,在迭代挖掘中不断积累和利用先验知识,从而引导搜索远离无效区域,聚焦于有潜力的方向,直接优化整个因子库的多样性与质量。
2. 方法论:技能、记忆与进化循环
2.1 问题形式化:构建正交因子库
FactorMiner 的目标并非寻找单一最优因子,而是迭代构建一个多样化、低冗余的因子库 ( L )。其核心挑战在于 “相关性红海”:随着库的扩充,新因子必须与库中所有现有因子保持低相关性,这使得可行搜索空间急剧缩小。FactorMiner 将挖掘过程重构为在一个持续演变的内部知识状态上的序列决策任务,该状态包含一个持久的经验记忆 ( M ),用于指导探索。
2.2 模块化因子挖掘技能
为了将复杂的金融计算与评估过程可靠地封装,FactorMiner 采用了模块化的技能架构。该架构将整个因子挖掘流程(从公式生成到多阶段验证)封装为一个独立的、可被大语言模型(LLM)调用的 Agent技能。其优势在于:
- 防止幻觉:将核心计算(如算子执行、IC计算)卸载给确定性的、经过GPU加速的代码后端,消除了LLM在数值计算上的错误风险。
- 可迁移性:通过配置即可适配不同市场(如A股与加密货币),同一套推理逻辑可跨域应用。
- 独立优化:技能的执行性能(如通过C编译或GPU加速)可以独立于上层的LLM推理模型进行优化。
2.3 结构化经验记忆
经验记忆 ( M ) 是FactorMiner实现“自进化”的核心。它从历史挖掘轨迹中提炼结构化知识,而非简单的数据回放。记忆主要包含三类内容:
- 挖掘状态:跟踪当前因子库的全局状态,如库大小、饱和度等。
- 结构化经验:
- 推荐方向 ( P_{success} ):从成功案例中提炼的高成功率逻辑模板,例如使用偏度/峰度进行市场状态切换、基于趋势回归的可靠信号等。
- 禁止方向 ( P_{forbidden} ):被识别为“红海”的区域,例如简单的VWAP偏离变体或标准化收益率,这些区域极易与现有库产生高相关性。
- 战略洞察:高层教训,如“非线性组合(XGBoost)优于线性组合”。
记忆系统通过形成、进化、检索三个算子动态更新。在每个挖掘批次后,系统分析轨迹形成新的记忆候选,并将其整合进化;在生成新因子前,则检索相关的记忆来约束和引导LLM的创作。
2.4 Ralph Loop:自进化发现引擎
FactorMiner 实例化了名为 Ralph Loop 的自进化范式,形成一个检索(Retrieve)、生成(Generate)、评估(Evaluate)、提炼(Distill)的闭环。其具体流程如下:
- 记忆检索:根据当前因子库 ( L ) 的状态,从经验记忆 ( M ) 中检索相关的成功模式与失败禁区信号。
- 引导生成:LLM Agent 结合检索到的先验知识和预定义的60+个金融算子库,生成一批候选因子公式 ( C )。
- 多阶段评估:对候选因子进行严格、层级的量化验证:
- 阶段1:快速IC筛选:在小样本资产上快速计算信息系数(IC),剔除IC过低的因子。
- 阶段2:相关性检查:检查候选因子与当前库 ( L ) 中所有因子的最大相关性,剔除高相关因子。
- 阶段2.5:替换检查(关键创新):如果新因子 ( f{new} ) 与库中某因子 ( f{old} ) 高度相关,但 ( f_{new} ) 的IC显著更高且满足质量条件,则允许执行替换。这使得因子库能在保持正交性的同时实现自我升级。
- 阶段3:批内去重:确保当前批次内剩余的因子彼此间互不相关。
- 阶段4:全量验证:在全体资产上计算精确的IC、ICIR等指标。
- 库更新:将通过所有阶段验证的因子正式加入因子库 ( L )。
- 记忆进化:基于本轮挖掘的完整轨迹(公式、IC、相关性、接受/拒绝结果),更新经验记忆 ( M ),完成知识积累。
3. 实验验证与性能分析
研究在多个市场数据集上对FactorMiner进行了全面评估,包括A股(CSI500、CSI1000、HS300)和加密货币市场。
3.1 主要结果:质量与多样性兼备
在严格的样本外测试中(2024年训练,2025年测试),FactorMiner在因子库质量和后续组合表现上均显著优于基线方法(包括经典Alpha101、遗传规划GPLearn和无记忆的LLM框架AlphaAgent)。
下表展示了在CSI500和CSI1000数据集上,各方法在“因子库(Top-40)”和“因子组合(Top-40)”两个维度的IC表现对比:
| 数据集 |
方法 |
因子库 IC (%) |
因子组合 IC (%) |
| CSE100 |
RF† (随机公式) |
2.68 |
6.98 |
|
Alpha100 (经典) |
4.49 |
10.85 |
|
GPFLean |
6.04 |
10.30 |
|
FactorAgent (无记忆) |
5.48 |
7.12 |
|
FactorMiner (Ours) |
5.30 |
10.00 |
| CSI1000 |
RF† |
1.94 |
7.48 |
|
Alpha100 (经典) |
2.88 |
11.37 |
|
GPFLean |
5.86 |
12.78 |
|
FactorAgent |
4.64 |
11.60 |
|
FactorMiner (Ours) |
6.21 |
11.17 |
关键发现:
- 卓越性能:在CSI500上,FactorMiner实现了8.25%的样本外IC和0.77的ICIR,全面领先。
- 高多样性:FactorMiner构建的因子库平均成对绝对相关性仅为0.30-0.31,低于基线方法,证明其性能提升源于真正的信号发现而非冗余堆砌。
- 跨市场鲁棒性:即使在微观结构迥异的加密货币市场,FactorMiner也能挖掘出有效因子(IC 3.82%),表明其捕捉的是跨资产类别的通用价量动力学。
3.2 消融实验:经验记忆的核心作用
通过对比“有记忆”和“无记忆”版本的FactorMiner,清晰验证了经验记忆的价值:
- 精准导航,提高产出:有记忆版本生成了96个高质量候选因子(产出率60.0%),而无记忆版本仅产生32个(产出率20.0%)。记忆检索有效将搜索聚焦于高潜力区域。
- 激进过滤,保障多样性:有记忆版本在生成更多有效信号的同时,主动拒绝了更高比例的候选者(拒绝率55.2% vs 43.8%),主要原因是触达了记忆中标明的“高相关禁区”。这体现了记忆作为战略过滤器的作用,优先追求独特性。
3.3 挖掘效率:工业级加速
FactorMiner通过多项技术实现高效计算:
- GPU加速算子:核心金融算子(如TsRank, Rolling Corr)使用PyTorch/CuPy实现,相比Pandas加速8-59倍。
- 多进程并行:利用Worker池并发评估大量候选因子。
- C编译优化:对串行瓶颈使用C代码优化。
得益于这些优化,评估1000个候选因子仅需约6分钟,而传统方法可能需要70分钟以上,使得大规模迭代探索成为可能。
4. 从因子库中获得的金融洞察
研究公开了一个包含110个因子的A股因子库,并对其揭示的成功与失败模式进行了深入分析,这些模式已沉淀在其经验记忆中。
成功的挖掘模式(推荐方向):
- 高阶矩作为市场状态指示器:偏度(Skew)和峰度(Kurt)被用于
IfElse 分支逻辑,在市场处于极端分布状态时,因子逻辑会从动量策略切换为反转策略。
- 趋势回归提供正交信号:引入的
Rsquare(拟合优度)、Slope(斜率)、Resi(残差)算子家族能有效捕捉趋势的可靠性。模式显示:当 Rsquare 高时(趋势可靠)采用斜率反转策略;当 Rsquare 低时则采用残差反转策略。
- 成交额效率:将收益率与成交额结合(Returns/Amount),并进行平滑排序,能产生与纯价格因子正交的、经流动性调整的动量信号。
失败的挖掘模式(禁止方向):
- VWAP聚类:任何涉及收盘价与VWAP(成交量加权平均价)简单偏离的变体,几乎必然与现有因子库产生高相关性(>0.5),成为“红海”。
- 数学等价陷阱:系统学会了识别表面不同但数学本质相同的公式(例如通过对数差分与除法构造的同质信号),避免重复发现。
5. 结论
FactorMiner 成功展示了一个轻量级、自进化的 AI Agent 框架如何通过融合模块化技能与结构化经验记忆,来解决金融 Alpha因子挖掘 中的根本性挑战。其核心贡献在于:
- 经验记忆机制:实现了从历史探索中提炼可操作知识,并用于指导未来搜索,显著提升了发现效率与因子库质量。
- 技能化架构:通过将复杂的金融计算封装为可靠技能,解耦了AI推理与底层执行,确保了过程的可控性与可迁移性。
- 全局库优化视角:内置的库准入与替换机制,使其能够直接优化整个因子库的正交性和聚合预测能力。
- 开源与可解释性:提供的经实盘验证的因子库及完整评估协议,为市场微观结构研究提供了宝贵的、可复现的基础资源。
这项工作为结合 大语言模型 与领域专业知识进行自动化金融研究指明了富有前景的方向。
参考资料
[1] 清华大学 | FactorMiner:大模型+经验记忆,打造自进化Alpha挖掘Agent, 微信公众号:mp.weixin.qq.com/s/3fAU3bsJY5Y8kBMtcXHtsA
版权声明:本文由 云栈社区 整理发布,版权归原作者所有。