回测之所以失真,不是 Sharpe 被高估了,而是你没有为所有尝试过的失败策略支付“统计代价”。
回测 Sharpe Ratio 可能不可信
在量化投资实践中,对回测得到的夏普比率(Sharpe Ratio),业界通常存在一个经验法则:先打个对折。这项规则的主要目的是对抗 数据挖掘(data mining) 效应。
但这个“对折”经验法则真的靠谱吗?它可能既过于“保守”,又缺乏统计上的精确性。直觉告诉我们:
折扣的大小,取决于你到底测试过多少策略、这些策略有多相关、以及当前 Sharpe 有多极端。
Sharpe Ratio 的统计学原理
夏普比率本质上是一种统计检验量,它等价于 t 统计量,也关联着 p 值。这个等式关系可以表述为:
Sharpe Ratio ≈ t-statistic ≈ p-value
具体而言,如果一条策略有 T 个样本点(例如 T=240 个月):
- t-stat ≈ Sharpe × √T
- Sharpe 值越高,其统计显著性就越强。
因此,当我们讨论回测得到的 Sharpe 是否“可信”时,本质上是在问:
在“真实 Alpha” = 0 的世界里(即策略没有超额收益),观测到这么大 Sharpe 值的概率有多大?
如果你只测试过一个策略,那么直接使用上述推理没有问题。但我们必须诚实面对现实:在实际研究中,你测试过的策略(可能是通过算法批量回测完成的)数量往往是 几十、几百,甚至上千个。
多重检验问题(Multiple Testing)
当你测试了 N 个完全没有 Alpha 的策略时,只要 N 足够大,几乎必然会出现“Sharpe 看起来很高”的策略。这是极值统计与幸存者偏差的自然结果。
在这种情况下,基于单次检验的 p-value 已经完全失效。你必须将“尝试过多少次”这件事,明确纳入统计推断的考量之中。
如何“修正” Sharpe Ratio
以下提供一个可操作的多重检验校正流程:
Step 1:Sharpe → 单次检验 p-value
根据样本长度 T,将观测到的 Sharpe 比率转换为 t 统计量,进而得到其在单次检验假设下的 p 值。
Step 2:单次 p-value → 多重检验 p-value
根据不同的风险控制偏好,可以从以下三类标准方法中选择一种进行校正:
Bonferroni(控制 FWER)
- 旨在防止任何一个假阳性(False Positive)出现。
- 这种方法极度保守,在金融实证研究中往往过于严苛。
Holm(改进版 FWER)
- 采用顺序校正方法。
- 比 Bonferroni 方法略为宽松。
BHY(Benjamini–Hochberg–Yekutieli)
- 控制假发现比例(FDR),即允许存在一定比例的假阳性策略。
- 该方法允许策略之间存在相关性。
- 原作者明确推荐将其用于金融实证研究。
无论选择哪种方法,校正后都会给出一个新的 p 值,记为 p_M。
Step 3:多重检验 p-value → “等效 Sharpe”
这里引入一个新概念:
Haircut Sharpe Ratio (HSR)
即,在“只做过一次检验”的虚拟世界里,能够产生与当前多重检验下同等显著性水平(p_M)的 Sharpe Ratio。
基于此,折扣(Haircut)可以定义为:
折扣 = (原始 Sharpe − 调整后 Sharpe) / 原始 Sharpe
折扣是非线性的
一个可能反直觉但至关重要的发现是:
Sharpe 比率的折扣不是线性的,更不可能是一个固定的经验比例。
研究结论非常清晰:
- 年化 Sharpe < 0.4
- 折扣往往大于 50%。
- 大多数此类策略应被直接视为统计噪声。
- 年化 Sharpe > 1.0
- 折扣通常小于 25%。
- 此时若仍采用50%的折扣,反而会过度惩罚那些可能真实存在的 Alpha。
这意味着:
50% 经验法则,对弱策略过于宽松,对强策略则太过残酷。
注意:相关性与“未发表策略”
在真实的研究环境中,我们还会面临两个额外难题:
- 你并不知道历史上到底尝试过多少策略(包括那些失败的、未发表的)。
- 不同策略之间的收益可能高度相关。
为此,我们可以引入结构模型来模拟更复杂的情况:
- 假设策略的均值来自一个混合分布:
- 一部分是真正的零 Alpha 策略。
- 一部分是具有真实 Alpha 的策略(通常假设为指数分布)。
- 假设策略收益在横截面上存在相关性。
- 利用 300 多个已发表的金融因子来反推真实世界的模型参数。
通过蒙特卡洛模拟,我们能够在这种更接近现实的设定下,得到更为稳健的 Sharpe 比率折扣估计。
极其实用的“最低收益门槛”
这套多重检验框架还能反向回答一个关键问题:
在给定
的前提下,策略至少需要多高的平均收益,才值得被认真对待?
结论是:在多重检验的视角下,真实可接受的收益门槛,远高于单次检验直觉所给出的门槛。
所以,在量化交易回测中,只要你愿意正面回答三个核心问题:
- 我测试过多少策略?
- 它们之间的相关性有多高?
- 我能接受多高比例的假发现?
那么,Sharpe Ratio 仍然是一种可以被修复、可以被科学信任的统计量。深入理解并应用多重检验校正,是每一位严谨的量化研究员穿越回测“统计幻觉”的必备技能。更多关于逻辑与统计推断的深入讨论,欢迎在云栈社区与广大开发者一同交流。