
股价预测是量化投资中的核心挑战,其难点在于市场的高度非线性和动态性。挖掘股票间的潜在关联已被证明是提升预测精度的有效途径。然而,现有的关联挖掘方法主要依赖于行业分类、基金持仓等预定义概念,存在更新滞后、关系刻画粗糙、缺乏权重以及依赖人工分析等局限。
COGRASP 模型提出了一种全新的解决思路。它通过自动分析实时更新的在线资源(如研报、新闻和社交媒体帖子),动态构建股票共现图(Co-Occurrence Graph)来捕捉更真实的市场关联。同时,模型创新性地聚合了长、中、短三个时间尺度的预测结果,以全面捕捉市场的多频波动趋势。基于真实市场数据的实验表明,COGRASP 在 Information Coefficient (IC) 和 RankIC 等关键量化指标上显著超越了现有的 SOTA 方法。
1. 引言
股票市场在全球经济中扮演着资本配置与价值发现的关键角色。为了获取更高的超额收益(Alpha),不仅需要分析个股的时间序列特征,更需要理解股票间的交叉影响。股票间的关系天然具有图结构特性,因此图数据成为了一种直观且强大的信息载体。
传统方法构建的图主要分为预定义的静态图(如行业分类图)和数据驱动的相关性图。但这些图结构往往难以全面、动态地反映股票间复杂多变的关系。要实现高性能的股价预测,关键在于解决两个层面问题:在数据层面,需要捕捉股票间多样化的量化关系;在建模层面,需要从关系图中有效提取特征,并结合多时间尺度的时序信息进行综合建模。COGRASP 模型应运而生,它利用社交媒体数据衍生的共现图来捕捉潜在关联,并将这些模式与多时间尺度的时序特征相融合,最终生成更精准的预测。

2. 相关工作回顾
2.1 股价趋势预测
传统股价预测依赖于 ARIMA、SVM 等统计与机器学习模型,但在处理非线性特征时表现有限。随着深度学习的发展,RNN 及其变体 LSTM 因擅长处理序列数据而成为主流。引入注意力机制(Attention)的 LSTM 能够对关键时间步进行加权,进一步提升了模型精度。
然而,多数现有研究采用固定的时间窗口(Time Window),这引发了一个关键思考:单一固定窗口能否充分捕捉市场中不同频率的信息?尽管状态频率记忆网络(SFM)尝试通过离散傅里叶变换分解 LSTM 隐藏状态来捕捉多频率信息,但其仍受限于固定窗口的输入,可能无法同时有效建模对综合判断至关重要的高频噪声与低频趋势。
2.2 股票预测中的图构建
为利用股票间关联信息,图神经网络(GNN)被广泛应用。主流做法是基于行业板块、基金持仓等构建静态图。然而,这类固定且通常无权重的图结构往往无法准确刻画真实、动态的市场关系,且更新频率很低。
以中国 A 股市场为例,散户投资者贡献了超过 70% 的交易量,他们在社交媒体上的关注和讨论对股价有显著影响。在线论坛不仅是信息集散地,也揭示了投资者的注意力焦点和情绪迁移。这种社交互动(例如“散户逼空 GameStop”事件)会直接影响投资行为。因此,处理在线新闻、研报和帖子,能够有效捕捉散户注意力的动态表征,为股价预测提供高价值的增量信息。
3. 问题定义
本研究将股价预测任务形式化为相对价格变化预测,这比简单的收益率排名更贴合多空交易策略的实际需求。
定义股票集合,其中每只股票在交易日的历史交易数据向量为。给定一个关系图,其中代表股票间的关系集合,为关系权重。设定回溯窗口,任务是利用关系图和历史数据,预测下一个交易日所有股票的相对价格变化。
数学表达为:

4. 方法论
COGRASP 的整体架构包含三个核心模块:多关系挖掘模块、多时间尺度挖掘模块以及聚合模块。
4.1 多关系挖掘模块
4.1.1 传统概念图的缺陷
现有基于 GNN 的预测方法所依赖的概念图存在四大缺陷:
- 低效性:同一概念下的股票关联强度不一致。例如,同属银行板块的几只股票走势可能分化严重,但概念图无法区分。
- 不完整性:预定义的概念固定,难以捕捉跨行业、跨概念的关联。现实中,不同行业股票可能因宏观因素同涨同跌。
- 无差别性:多数研究将图视为无权图,假设所有关联股票影响力相同,这与事实不符。
- 僵化性:行业或持仓数据更新频率低(如半年报),无法适应快速变化的市场。
4.1.2 共现图构建
针对上述问题,COGRASP 提出利用在线资源构建动态共现图。当两只股票在同一篇内容中被共同提及时,就建立连接,边的权重由共现频率决定。
这种方法具有逻辑优势:
- 捕捉跨概念信息:投资者讨论热点时,常关联不同行业股票,共现图能捕捉这种复杂关系。
- 反映散户注意力:社交媒体热度直接映射资金关注度,是动态信号源。
- 量化关系强度:通过频率统计区分关系强弱,使图结构更精细。
- 支持动态更新:基于网络数据,图可按需高频更新。
4.1.3 图神经网络单元
利用构建好的共现图,模型采用切比雪夫谱图卷积算子来嵌入股票间的复杂关系。相比标准 GCN,切比雪夫 GCN 能更有效地建模间接和多跳关系,捕捉高阶信息。考虑到关系的时效性差异,模型将 GCN 生成的图嵌入与时序特征进行拼接,允许后续模块自适应地学习不同时间尺度下关系的影响强度。
4.2 多时间尺度挖掘模块
为提取多频率市场信息,该模块设计了三个并行的、基于注意力机制的 LSTM(ALSTM)单元,分别对应长期(如半月)、中期(如十天)和短期(如一周)的市场动力学。
具体流程:
- 根据设定步长,从原始数据生成三个不同长度的序列输入。
- 每个尺度的输入进入对应的 ALSTM 单元,输出隐藏状态序列。
- 应用注意力机制计算隐藏状态的加权和,生成该尺度下的预测向量。
这一设计旨在模拟不同交易模式(如高频波动与低频趋势)对股价的叠加影响。
4.3 聚合模块
模型的最终输出是对三个时间尺度预测结果的加权聚合。通过三个可学习的权重参数(满足和为1的约束),动态融合短、中、长期的信号:。这种机制使模型能根据当前市场环境,自适应地调整对不同周期信号的依赖程度。
5. 实验与结果分析
5.1 实验设置
- 数据集:股票池为沪深300(CSI 300)成分股。社交媒体数据来自雪球网,包含2023年10月至2024年2月的30万条帖子,用于构建共现图。股票量价特征来自开源数据。
- 时间划分:训练验证集为2015年1月至2024年2月,测试集为2024年3月至6月。
- 评价指标:采用业界通用的 IC、RankIC、ICIR 和 RankICIR,衡量预测的相关性、排序能力及稳定性。
- 基准模型:对比了 MLP、XGBoost、LSTM、ALSTM、Transformer 及 HIST、STGCN、SFM、StockMixer、MDGNN 等高级模型。
5.2 性能对比 (RQ1)
实验结果显示,COGRASP 在所有评估指标上均显著优于基准模型。
- IC & RankIC:COGRASP 的 IC 达到 0.0546,RankIC 达到 0.0647,分别比表现最好的 SOTA 模型提升了 39% 和 140%。
- SFM 的表现优于普通 LSTM 和 Transformer,证明了利用多频率信息的有效性。
- 依赖预定义固定图的 HIST 和 STGCN 表现不及 COGRASP,证实了动态共现图的优越性。

5.3 消融实验 (RQ2)
通过逐步移除组件(如图模块、多时间尺度模块、聚合模块)构建变体模型,实验表明模型性能随组件增加而逐步提升。同时包含“多关系挖掘”和“多时间尺度挖掘”的全量模型表现最佳,验证了各模块的有效性与互补性。

5.4 网络分析与案例研究 (RQ3)
5.4.1 图结构统计特征
对比行业图、全连接相关性图和共现图:
- 连通性:行业图过于稀疏(密度0.03),有孤立成分;全连接图过于稠密(密度1),噪声大。共现图密度适中(0.34),且为单一连通巨分量,表明其捕捉了广泛而真实的市场关联。
- 中心性:共现图的平均接近中心性显著更高,信息传播效率更优。

5.4.2 子图可视化分析
选取9只股票的子图对比,共现图清晰展示了跨行业的强关联。例如,贵州茅台、中信建投和海康威视虽属不同行业,但在共现图中连接紧密,这与它们实际的价格走势联动一致。而行业图无法捕捉这种跨板块关联。

5.4.3 案例研究:上海机场 (SH600009)
分析上海机场在共现图中的前10大关联股票,揭示了多维市场逻辑:
- 中国中免:作为免税店运营方,是机场重要租金来源(商业伙伴)。
- 航空公司(南航、东航、国航):机场的核心客户。
- 大秦铁路、上港集团:存在竞争或替代关系的交通方式。
- 长江电力、锦江酒店:受共同宏观或行业政策影响。
此案例表明,共现图成功捕捉了供应链、竞争、宏观关联等单一概念无法涵盖的复杂关系。
6. 讨论
尽管 COGRASP 表现优异,但仍存在局限性,核心在于输入数据(社交媒体)的质量不可控,噪声无法被彻底消除。
在可解释性方面,COGRASP 取得了一定进展:
- 共现图权重:揭示了影响目标股票的潜在关联因子。
- ALSTM 注意力权重:展示了历史关键时间点对当前预测的影响。
- 聚合权重:解释了不同周期因素对最终决策的贡献比例。
未来的工作将致力于引入更先进的可解释 AI 方法,以进一步揭示模型决策背后的关键关系子图和时序特征。
7. 结论
本研究提出的 COGRASP 模型,通过挖掘在线文本数据构建动态股票共现图,有效克服了传统概念图更新滞后、关系单一的缺陷。结合多时间尺度 LSTM 网络与自适应聚合机制,该模型能够综合处理复杂的市场关联与多频率波动。基于真实数据的实证分析证明,COGRASP 在预测准确性上超越了现有主流方法,并通过案例分析展示了其捕捉真实市场逻辑的合理性与优越性,为量化投资中的因子挖掘与模型构建提供了新的视角与工具。