
一、研究背景与核心问题
1.1 研究动机
传统的订单流分析模型通常隐含着一个根本性的假设:模型参数是恒定不变的。这种静态假设在市场相对平稳的时期或许还能勉强适用,但一旦遭遇市场压力期或结构性剧变——恰恰是模型最需要提供准确预测的时候——它便会完全失效。
一个典型的例子就是2020年3月新冠疫情全球爆发引发的市场动荡:
- 市场波动性指数飙升至2008年金融危机以来的最高水平。
- 各类资产间的相关性急剧上升,趋近于1。
- 市场流动性在投资者最需要的时候迅速枯竭。
在这种情况下,基于平静期数据估计的静态模型系数不仅会失效,甚至可能产生误导,成为策略的“负资产”。
1.2 研究目标
这项研究的目标,是构建一个动态的、状态依赖的分析框架,用以刻画订单流与未来资产收益之间的关系。这个框架需要能够:
- 自动适应不断变化的市场环境。
- 在市场压力时期,有效识别并提取出真正具有信息含量的“知情交易信号”。
- 区分不同投资者类型之间的行为差异。
具体的研究场景设定在韩国股市,时间跨度为2020年至2024年,覆盖了2,439只股票,共计超过279万个“股票-交易日”观测值。
二、方法论框架(三大支柱)
为了实现“全天候”的分析能力,论文提出了三种互补的方法论,共同构成了一个稳健的分析体系。
2.1 自适应卡尔曼滤波器
核心思想:将市场中真实的、具有预测能力的“知情信号”视为一个隐藏状态,它被大量的噪声交易所掩盖。
标准状态空间模型设定如下:
- 状态方程:
x_t = Φ * x_{t-1} + w_t,其中 w_t ~ N(0, Q)。
- 测量方程:
y_t = H * x_t + v_t,其中 v_t ~ N(0, R)。
关键创新点在于,论文使测量噪声的方差 R 变得异方差,并将其与市场的实时波动率显式地关联起来:
R_t = σ_t^γ * \bar{σ}^{2-γ}
其中,σ_t 是 t 时刻的已实现波动率,\bar{σ} 是样本期内的平均波动率,γ 是一个敏感度参数。
自适应机制由此产生:
- 当市场波动率
σ_t 飙升时,测量噪声方差 R_t 增大。
- 这会导致卡尔曼增益
K_t 下降。
- 最终,滤波器对近期观测值
y_t 的权重会降低,从而自动将危机期间异常高的成交量(可能是恐慌性交易)更多地视为噪声而非信号。
2.2 三状态马尔可夫转换模型
模型设定:假设订单流与收益之间的关系系数 β 在不同时间点所处的“市场状态” s_t 下是不同的:
R_{i,t+1} = β_{s_t} * OF_{i,t} + ε_{i,t+1}
其中,潜在状态变量 s_t 服从一个一阶马尔可夫链,其状态转移由概率矩阵 P 控制。
研究识别出了三种具有显著区别的市场状态:
| 状态 |
特征 |
样本占比 |
| 牛市 (Bull) |
高收益、低波动 |
43% (528天) |
| 常态 (Normal) |
接近零收益、中等波动 |
49% (598天) |
| 危机 (Crisis) |
负收益、高波动 |
8% (95天) |
状态条件预测回归允许订单流-收益关系在不同市场状态下发生 “跳跃式”的切换,而不是缓慢、连续的漂移。

2.3 非对称响应函数
模型设定:为了检验投资者对价格冲击的反应是否对称,论文使用了以下模型:
OF_{i,k,t} = α_k + β_{k,up} * I(ΔP_{i,t-1} > θ) + β_{k,down} * I(ΔP_{i,t-1} < -θ) + ε_{i,k,t}
其中:
k 表示投资者类型。
θ 为冲击阈值(研究中设定为2个标准差)。
I(·) 为指示函数。
不对称比率 |β_{k,down} / β_{k,up}| 被用来判断投资者是更悲观(比率>1)还是更乐观(比率<1)。
三、数据与变量构造
3.1 数据来源
- 市场:韩国交易所,涵盖KOSPI和KOSDAQ市场。
- 期间:2020年1月至2024年12月,共1,231个交易日。
- 样本:2,439只普通股,总计2,788,940个“股票-交易日”观测值。
- 投资者分类:外国机构投资者、国内机构投资者、个人投资者。
3.2 核心变量
市值标准化订单流是核心变量,其计算方式为:
OF_{i,k,t} = (BuyValue_{i,k,t} - SellValue_{i,k,t}) / Cap_{i,t-1}
这表示投资者类型 k 在股票 i 上净买入的市值占该股票总市值的比例,使得不同规模股票之间的订单流具有可比性。
3.3 描述性统计
| 变量 |
均值 |
标准差 |
说明 |
| 外国订单流 |
-0.0023% |
0.166% |
样本期内整体呈净卖出 |
| 机构订单流 |
-0.0036% |
0.085% |
净卖出 |
| 个人订单流 |
+0.0084% |
0.184% |
净买入 |
| 日收益率 |
0.030% |
3.506% |
波动较大 |
| 波动率比率 |
0.869 |
0.524 |
短期/长期波动比 |
四、核心实证发现
4.1 卡尔曼滤波效果
- 经过卡尔曼滤波处理后的信号,在预测未来收益的
t 统计量和 R² 上,确实带来了适度但一致的改进。
- 对于外国投资者,滤波后的
t 统计量提升了0.18%至0.21%。
- 改进效果随着预测期限的延长而增加,这说明滤波方法更擅长提取那些具有持续性的信息成分。

4.2 马尔可夫状态识别——核心发现
三种状态的详细经济特征如下:
| 状态 |
天数 |
日均收益 |
波动率 |
夏普比率 |
外国资金流动 |
| 牛市 |
528 |
+0.154% |
0.54% |
4.50 |
-0.0027%(流出) |
| 常态 |
598 |
-0.034% |
1.24% |
-0.44 |
-0.0040%(流出) |
| 危机 |
95 |
-0.223% |
3.87% |
-0.92 |
+0.0100%(流入) |
最关键的实证结果在于,外国投资者订单流的预测能力呈现出剧烈的状态依赖性:
| 市场状态 |
回归系数 β |
t统计量 |
相对倍数 |
| 牛市 |
0.00023 |
7.81 |
1.0×(基准) |
| 常态 |
0.00064 |
21.15 |
2.8× |
| 危机 |
0.00204 |
19.23 |
8.9× |
解读:
- 在危机期间,外国投资者订单流的预测能力是牛市时期的8.9倍。
- 可能的解释是:外国投资者在压力时期掌握了更有价值的信息;或者是危机中散户的噪声交易激增,反而衬托出机构信号的清晰度。
- 值得注意的是,在危机期间,外国资金表现为净流入,扮演了“逆向流动性提供者”的角色。
4.3 非对称响应模式——行为金融学证据
三种投资者对价格冲击的反应模式存在显著差异:
| 投资者类型 |
β_up(上涨后) |
β_down(下跌后) |
不对称比率 |
行为模式 |
| 外国投资者 |
**-0.000035*** |
**+0.000070*** |
-2.02 |
逆向投资者:上涨后卖出,下跌后买入(买入强度是卖出的2倍) |
| 国内机构 |
-0.000021*** |
-0.000045*** |
2.21 |
处置效应:对下跌反应更强(急于止损) |
| 个人投资者 |
**+0.000089*** |
**+0.000014*** |
0.16 |
动量追逐者:上涨后强烈买入,下跌后微弱卖出 |
个人投资者对正面价格冲击的反应强度,是对负面冲击的6.3倍,生动地诠释了“追涨杀跌”的典型行为模式。
4.4 “全天候”策略表现
基于外国投资者信号构建的三种策略对比:
| 策略 |
年化收益 |
夏普比率 |
卡尔马比率 |
最大回撤 |
| 静态原始信号 |
-10.47% |
-0.477 |
-0.154 |
-68.2% |
| 卡尔曼滤波 |
-10.36% |
-0.472 |
-0.152 |
-68.3% |
| 全天候策略 |
-10.08% |
-0.500 |
-0.151 |
-66.8% |
关键发现:
- 在整个样本期内,所有策略均录得负收益,这主要受2021-2023年低波动、低收益的市场环境拖累。
- 但在危机期间表现优异:2020年新冠危机期间,全天候策略的夏普比率达到1.08,卡尔马比率达到0.924。
- 规模效应明显:策略在小盘股中表现极佳(夏普比率2.75),在大盘股中则失效,说明订单流信号在流动性较差的小盘股中信息含量更高。
五、稳健性检验
- 子期分析:策略在危机年份表现突出(如2020年夏普1.08),在平静年份表现不佳。
- Bootstrap置信区间:夏普比率的95%置信区间为[-1.445, 0.559],包含零值,这意味着声称能稳定生成Alpha仍需保持谨慎。
- 参数敏感性:卡尔曼滤波中的关键参数
γ 在合理范围内变化时,对结果的影响微乎其微(<0.1%),表明模型是稳健的。
六、总结
这篇论文的核心价值在于其方法论的创新以及对市场微观结构动态性的深刻洞察。它有力地证明了,在市场风云变幻的背景下,“一刀切”的静态模型注定会失灵。而通过显式地建模市场状态的依赖性和不同投资者的异质性行为,我们能够揭示出传统静态分析方法无法捕捉的系统性模式。
这一框架为量化交易和风险管理人员提供了一套更精细、更自适应的分析工具,尤其是在应对极端市场事件时。对于想深入探讨此类自适应模型、市场微观结构或行为金融的朋友,欢迎来云栈社区的量化金融板块交流心得。