云栈社区»论坛 › 回收站「 Recycle Bin 」 › A股量化因子分析：基于更优波动率的极大值幅度因子构建与回测 ...

发回帖发新帖

5032 积分	0 好友	657 主题

发消息

A股量化因子分析：基于更优波动率的极大值幅度因子构建与回测

发表于 2026-3-17 01:32:47 | 查看: 111| 回复: 0

在兴业证券的高频系列研究中，首席分析师郑兆磊老师曾探讨过收益率分布中的 alpha，也分析过成交量分布中的 alpha，但似乎还未涉足波动率分布中的 alpha 这一专题。

因此，笔者尝试不自量力地来聊一聊波动率分布中可能存在的 alpha。笔者推测，这个专题下应该不止一个有效的因子。

本文将聚焦于探讨 “波动率极大值幅度” 这个因子。该因子的构建思路参考了郑兆磊老师的研报《收益率极大值幅度：一个我差点错过的超级多头因子！》，同时也借鉴了曹春晓老师的研究《灾后重建是真的不行，不过更优波动率还是可以的》。

计算步骤和代码

在计算波动率时，笔者选择使用曹春晓老师提出的 “更优波动率” ，而非传统的波动率度量方式。

原因在于，若使用传统波动率来计算本因子，会产生大量的 nan 值，除非将判定极值的阈值放宽。

1. 计算步骤

整个因子的计算可分为以下四步：

第一步：计算 5 分钟周期的更优波动率。即，基于 open, low, high, close 共 20 个价格数据，计算其标准差与均值的比值。
第二步：计算 30 分钟周期的更优波动率。
第三步：计算 5 分钟更优波动率的 95% 分位数。
第四步：计算 30 分钟更优波动率中，超过其对应 5 分钟更优波动率 95% 分位数的那些值的均值，并将该均值除以这个 95% 分位数。

2. 代码实现

以下是核心的 Python 计算代码：

def process_single_day(self, idx):
    file_name = self.files[idx]
    date_str = file_name.split('.')[0]
    cur = pd.to_datetime(date_str) + timedelta(hours=15)
    file_name = self.files[idx]
    full_path = os.path.join(self.file_pth, file_name)
    data = BaseDataLoader.load_data(full_path, fields=['close', 'open', 'high', 'low'])
    prefer_sigma_5 = []
    prefer_sigma_30 = []
    for i in range(5, len(data.data)):
        tmp_data = data.data[i-5:i, :, :].reshape(-1, len(data.codes))
        tmp_sigma = np.nanstd(tmp_data, axis=0) / np.nanmean(tmp_data, axis=0)
        prefer_sigma_5.append(tmp_sigma)
        if i >= 30:
            tmp_data = data.data[i - 30:i, :, :].reshape(-1, len(data.codes))
            tmp_sigma = np.nanstd(tmp_data, axis=0) / np.nanmean(tmp_data, axis=0)
            prefer_sigma_30.append(tmp_sigma)
    prefer_sigma_5 = pd.DataFrame(prefer_sigma_5, columns=data.codes)
    prefer_sigma_30 = pd.DataFrame(prefer_sigma_30, columns=data.codes)
    q = prefer_sigma_5.quantile(0.95)
    flag = prefer_sigma_30 > q
    prefer_sigma_30 = (prefer_sigma_30 * np.where(flag, 1.0, np.nan)).mean() / q
    res = prefer_sigma_30.to_frame()
    res.columns = ['prefer_sigma']
    res['datetime'] = cur

代码解读：

前 7 行：负责读取对应日期的行情数据。
第 8-19 行：循环计算每个标的的 5 分钟和 30 分钟更优波动率。这里需要注意的是，data.data 是一个三维 numpy 数组，其维度依次为：时间、字段、标的。更多细节可参考关于基础数据类BaseDataLoader的说明。
第 20 行：计算 5 分钟更优波动率的 95% 分位数 q。（值得一提的是，如果使用传统波动率，此处需降至 80% 分位数，否则仍会有部分标的的因子值为 nan）。
第 21-22 行：依据上述公式，计算“波动率极大值幅度”因子。