云栈社区»论坛 › 技术文档「 Note & Doc 」 › 量化投资中如何识别因子幻象？从因果推断与双机器学习看因子稳定 ...

发回帖发新帖

3019 积分	0 好友	403 主题

发消息

量化投资中如何识别因子幻象？从因果推断与双机器学习看因子稳定性

发表于 2026-3-1 05:53:58 | 查看: 71| 回复: 0

你大概也遇到过这种情况。

从最新的顶刊论文里复现出一个因子。回测曲线亮眼，多空组合夏普比率超过2，各年收益稳定，换手率适中，和现有组合的相关性也不高。你小心翼翼地将它加入策略，满怀期待。

但上线运行一段时间后，净值曲线却开始走平，甚至出现回撤。仔细检查代码，没有bug；核对数据源，也一切正常。因子依然在那里，只是它好像“失效”了。

这不仅仅是简单的过拟合。

康奈尔大学教授 Marcos López de Prado 提出了一个概念：Factor Mirage（因子幻象）。有些因子，在统计检验上完美无缺，却经不起时间的推敲。它们并非纯粹运气的产物，而是特定方法论的产物——我们用因果错配的方式，从历史数据中“创造”了本不存在的规律。

那么，这个幻象究竟是如何产生的？我们能否避开它呢？欢迎在云栈社区分享你的实战观察。

混淆与碰撞

在因果推断里，混淆变量和碰撞变量是两个基础却极易被忽视的概念。

混淆变量相对好理解。经典的例子是：图书馆借书量与泳池人数呈正相关。背后的真实原因是季节。夏天到了，去图书馆纳凉借书的人多了，去游泳消暑的人也多了。如果只看“借书量”和“泳池人数”这两个变量，你可能会得出“借书导致游泳”的荒谬结论。但只要控制住“季节”这个变量，这个虚假的相关性就会消失。

碰撞变量则反直觉得多。

设想一个人的才华与外表，在整个人群中本无相关性。有才华的人未必好看，好看的人也未必有才华。但如果我们只观察那些成为了明星的人。成为明星通常有两条路径：要么才华横溢，要么外表出众，两者至少占其一。那么，在这个被筛选过的明星群体里，才华和外表反而会呈现出负相关：才华横溢的明星，外表可能普通；外形出众的明星，才华常常受到质疑。

这不是因为才华和外表真有什么此消彼长的关系，而是因为样本选择（成为明星）同时受到了两者的共同影响。 在统计学上，这个现象被称为伯克森悖论，而“成为明星”在这里就是一个典型的碰撞变量。

量化的伯克森悖论

假设你相信“低波动率”和“高动量”都是有效的选股条件。于是，你每个月根据这两个因子综合打分，选出总分最高的前10%的股票。

这个看似合理的选股规则，其实隐含着一个类似碰撞变量的筛选机制：一只股票入选，可以是因为其低波动性特别突出，也可以是因为其高动量特别突出，或者两者兼具——只要总分够高，即入选原因至少满足其一。

在最终入选的股票池里，你会发现，低波动的股票往往动量不强，而动量强的股票波动率也不低，两个因子呈现出此消彼长的负相关。你或许会欣喜地将此解读为“同时满足低波高动的股票非常稀缺，因此市场给予了更高的溢价”。

但这个“稀缺性”，很可能只是你的选股规则人为制造出来的。在全体股票样本中，波动率和动量本可能毫无关系，甚至是微弱的正相关。你通过“选股”这个动作，无意中创造了一个虚假的负相关模式，并误以为发现了一条市场规律。

更隐蔽且危险的问题是：如果在构建多因子回归模型时，错误地将一个碰撞变量作为控制变量加入，就会在原本毫不相干的因子与未来收益之间，强行打开一条虚假的因果路径。

模型会“言之凿凿”地告诉你这个因子有效，拥有显著的t值。但实际上，它的“有效性”完全依赖于你错误地控制了某个同时受该因子和收益共同影响的变量。这也是为什么有些多因子模型在样本内拟合度（R²）越高，实盘失效反而越快——你控制的变量越多，无意中引入碰撞变量、制造因子幻象的概率就越大。

指数级上升的虚假因果

这里有一个数学上的残酷事实。

假设每个新加入模型的变量（无论是作为预测因子还是控制变量），其成为混淆变量或碰撞变量的基础概率是固定的，比如5%。当模型只有10个变量时，出现至少一对因果错配的概率或许还不算太高。但当变量数量增加到30、50甚至100个时，这个概率会呈指数级上升。

也就是说，如果你的模型里塞进了上百个“因子”，几乎可以断言其中必定存在因果错配。你的模型可能并非在描述真实世界的运行规律，而是在描述一组由复杂变量关系精心编织出的统计幻象。

López de Prado 和 Zoonekynd 在他们2025年的研究中，通过构建 Barra 因子模型的因果图，揭示了一个反直觉的现象：那些包含了碰撞变量的错误模型，往往具有更高的调整后 R²；而剔除了碰撞变量、因果结构正确的模型，调整后 R² 反而更低。

换句话说，统计指标上的“更好拟合”，恰恰是因果错配的产物。一个模型看起来解释力更强、更“漂亮”，却可能隐藏着系统性的投资风险。这意味着，如果我们仅仅依赖R²、t值这类传统统计指标来筛选因子，很容易选中那些因果结构错误的模型——它们的统计显著性来源于变量关系的错误设定，而非真实的预测能力。

很多量化团队在策略突然失效时，第一反应是“市场风格变了”，于是开始疯狂挖掘新因子、调整权重。但真正的原因或许是，那个失效的因子从来就没有真实的预测能力，它的统计显著性只是特定变量组合下诞生的一个短暂幻象。

相互矫正的错觉

这里还有一个更反直觉的地方值得深思。

很多多因子模型的“有效性”，其实并非来源于每个因子都抓住了真实的因果关系，而是来自于因子之间的偏误相互抵消。因子A包含了某种方向的偏误，因子B恰好包含了方向相反的偏误，把它们放在一起，偏误互相抵消，模型整体看起来就很精准。

上文提到的 Barra 研究案例就暗含了这种现象。当模型中包含碰撞变量时，它产生的偏误并不会均匀地摊到每个因子上，而是可能在某些特定因子的系数上产生显著的偏移。然而，这种偏移又被其他变量的存在所掩盖或抵消。统计指标告诉你模型拟合得天衣无缝，但实际上你看到的“有效性”，只是多种偏误之间达成的一种暂时且脆弱的平衡。

这种由相互矫正带来的有效性是极其脆弱的。只要其中一个因子的偏误方向或大小因市场环境变化而发生改变，整个平衡就会被瞬间打破，模型随之崩塌。

例如，某个实盘策略使用了五个因子，历史回测表现堪称完美。上线第一年确实获利颇丰，但第二年市场结构微调后，策略直接经历了长达八个月的持续回撤。事后复盘时才发现，单独检验这五个因子中的任何一个，都没有一个能独立、稳定地贡献正向收益。它们的“有效”完全依赖于彼此之间的复杂抵消关系。一旦这种精巧的平衡被破坏，你甚至很难找到修复模型的切入点。

从相关性到因果：一个可操作的框架

那么，在挖掘因子时，有没有办法做一些前置筛查，将那些难以持续的“幻象因子”或“陪跑因子”识别出来呢？

一个可行且日益受到重视的方向是双机器学习。它的核心思想是，先利用机器学习模型剥离其他混杂因素的影响，再估计目标因子的“净效应”。

我们可以通过 Frisch-Waugh-Lovell 定理来直观理解：在线性回归中，如果想估计变量 X 对 Y 的净效应，可以先分别用其他所有控制变量 Z 去预测 X 和 Y，得到两个残差 e_x 和 e_y。然后用 e_x 对 e_y 做回归。这两个“纯净”残差之间的关系，就是剔除了 Z 影响后 X 对 Y 的因果效应。

双机器学习将这个思路推广到了复杂的非线性场景。它使用如随机森林或神经网络等灵活的机器学习模型，来拟合那些未知的非线性关系和交互作用，然后通过残差回归来估计因果效应。 这样做有两个关键优势：

不预设函数形式，能自动捕捉数据中复杂的模式。
通过交叉拟合来避免过拟合——将样本随机分成两份，用一份数据训练模型，在另一份数据上计算残差，然后交换角色重复一次，防止模型“记住”样本内的噪声。

将其应用到因子筛选中，大致流程如下：对于每个候选因子 F_i，先用其他所有相关变量（包括其他因子、风格暴露、宏观指标等）去预测 F_i，得到残差 Resid(F_i)；同时，用同样的变量集去预测未来的收益 Return，得到残差 Resid(Return)。最后，检验 Resid(F_i) 与 Resid(Return) 之间的相关性是否显著。如果显著，则说明 F_i 对收益有独立于其他所有变量的贡献，这个贡献更接近我们想要的“因果”关系。

当然，实操中还有许多细节需要权衡：选择什么样的机器学习模型？模型选择对结果影响多大？当候选因子多达数百个时，用它们预测收益本身就是一个高维问题，是否会引入新的过拟合？残差显著的阈值如何设定？这些问题没有标准答案，需要根据具体数据和场景反复调试。

因子的三重检验

对于资源有限的个人或小团队，或许还有一个更直观实用的因子筛选框架。我们可以从三个维度审视每一个候选因子，过滤掉那些仅有统计显著性、但缺乏因果解释力的变量。

可干预性：这个因子所代表的特征，是否可以被我们或市场参与者主动干预或改变？例如，公司的库存水平、营销支出、定价策略等，这些是管理层可以主动调整的，因此更可能成为因果关系中的“因”。反之，像季节、宏观经济指标、市场整体波动率等，是外部给定、难以被个体行为改变的，它们更多是“伴随状态”或“背景板”。这类“陪跑因子”不是完全无用，但我们必须清醒地认识到它的定位：它可能提供有价值的信号，但其本身不代表驱动价格变化的根本原因。
独立性：在控制了其他已知的重要变量后，这个因子是否依然具备独立的预测能力？一个简单的偏相关分析就能提供初步线索。如果一个因子与其他多个因子高度共线性，那么它的“独立贡献”就非常可疑，很可能只是冗余信息或幻象。
稳定性：将历史样本按不同市场环境（牛/熊市、高/低波动率、流动性好/差）进行分割测试。观察因子的预测系数（或IC值）是否在不同子样本间保持稳定。如果系数随着环境变化发生剧烈波动，甚至出现符号反转，那就强烈暗示它可能只是在特定环境下偶然有效的统计相关性，而非一个稳定的因果结构。真正的因果效应，其强度可以随环境变化，但作用方向（符号）通常应是稳定的。

这三个检验都指向同一个核心目标：剥离混杂因素，检验因子的独立与稳定贡献。能同时通过这三重考验的因子不会很多，但最终留下的，往往更能经受住样本外实盘的考验。

时间尺度上的博弈

如果按照严格哲学意义上的因果论标准，市场上绝大多数量化因子模型，其基础可能都是“错误”的。但量化交易追求的从来不是哲学正确，而是预测能力和盈利结果。

这里存在着一个关键的时间尺度博弈。在毫秒乃至微秒级的高频交易世界，物理限制（如网络延迟、交易所撮合规则）决定了因果关系相对直接和稳固——订单簿的变化导致价格变化，这里的统计相关性几乎就等于因果性。然而，在日度、周度乃至更长的低频投资领域，驱动价格的是复杂难测的人心、不断演变的市场结构和信息传递机制。这里，才是因果推断真正的主战场。

如果一个低频策略仍在用高频领域的“统计相关即因果”的朴素思维去构建，那么遭遇“因子幻象”几乎是必然的命运。

或许，我们最终的目的并非找到那个绝对、永恒的“真实原因”，而是找到那些足够稳定、以至于在我们的策略生命周期内可以被当作“原因”来使用的、坚实的统计关联。它们不是永恒的真理，但在策略有效存续的时间里，它们“够用”了。

如果说这是一种务实主义的妥协，那它也是对这个复杂金融市场的一种诚实认知。在这个市场上待久了就会发现，能够清醒地识别出妥协的边界在哪里，并且绝不把边界内的“实用近似”误认为是永恒的真理，这本身就已经是一种稀缺的能力。

所以，下次当你精心构建的模型突然失效时，先别急着添加新因子，也别忙着调整正则化参数。不妨停下来，试着问自己一个更根本的问题：

这个模型背后，究竟是真实世界里的因果关系，还是一个被精心伪装过的统计幻象？

量化投资, 因子分析, 因果推断, 机器学习, 金融工程