Hudson River Trading (HRT) 旗下 AI 实验室 (HAIL) 的 Marc Khoury,在 ICML 2025 Expo Talk Panel 上发表了关于为自动化交易构建基础模型的演讲。本文对其核心观点进行深入梳理与总结。

演讲链接: https://icml.cc/virtual/2025/46791
核心背景与市场微观结构
Hudson River Trading (HRT) 的定位
HRT 是全球顶级的自动化交易公司之一,其交易量约占美国市场的 10%。其核心竞争优势在于运用机器学习技术处理海量的金融数据。AI Labs (HAIL) 团队则专注于跨资产类别的深度学习模型研发与部署。
Limit Order Book (LOB) 与价格本质
“股价”并非一个单一的数字,而是由 Limit Order Book (LOB) 这一数据结构定义的。LOB 汇聚了市场中所有流动性的供需意图:
- Bid (买单) 与 Ask (卖单) :分别代表买方和卖方的交易意愿。
- Spread (价差) :最优卖价 (Best Ask) 与最优买价 (Best Bid) 之间的差额,代表了交易的显性成本。
- Mid-price (中间价) :最优买价和最优卖价的平均值,常被视为资产公允价值的代理。
市场微观结构的一个核心规律是:资产流动性越差,建立头寸的风险就越高,价差 (Spread) 通常也越宽,以补偿这部分风险。
交易策略与盈利机制
自动化交易的 Alpha 来源主要可归纳为两类:
- Market Making (做市) :提供流动性(被动挂单)。通过赚取买卖价差获利,本质是跨越时间维度的供需匹配。其核心风险在于 Adverse Selection (逆向选择) —— 即交易对手方拥有比做市商更优越的信息优势,导致做市商在价格即将发生不利变动前完成交易。
- Removing Liquidity (吃单) :消耗流动性(主动成交)。基于对未来价格方向的预测,主动与现有挂单成交。这类策略要求模型具备比市场更精准的预测能力 (Smarter) 或更快的执行速度 (Faster)。
建模挑战:智能与速度的权衡
Smart vs. Fast Trade-off
交易系统面临严格的 帕累托前沿 (Pareto Frontier) 约束:
- 更复杂的模型 (Smarter) :能够捕捉非线性、非显性的市场特征,提取更深层次的 Alpha。
- 更低延迟的系统 (Faster) :能够抢占显性交易机会,减少滑点。
增加计算量必然带来推理延迟的提升。因此,必须在“模型预测能力”与“系统响应速度”之间寻找最优平衡点。
模型架构的选择与归纳偏置
处理金融数据面临着特定的架构挑战:
- Transformer 架构:
- 优势:擅长处理长上下文信息,能够回顾所有历史事件进行综合推断。
- 劣势:推理成本高昂,复杂度随序列长度呈线性或二次增长。在极端延迟敏感的场景下(如逐笔数据预测),往往无法满足实时性要求。
- 循环架构 (RNNs/SSMs/LSTMs) :
- 优势:推理时间复杂度为 O(1),极其适合低延迟环境。
- 劣势:存在强烈的归纳偏置,强制将历史信息压缩至固定大小的隐藏状态中。在金融这种信噪比极低的数据环境中,这种压缩往往是有损的,难以有效区分噪声与真实信号,导致长期依赖信息的丢失。
数据处理:时间 vs. 事件
金融数据在时间上是非均匀的。市场活动在某些时刻会极度密集,而在其他时刻则非常稀疏。传统的基于时间切分(例如按分钟)的标记化方法会平滑掉市场微观结构的细节。基于事件或逐笔数据的处理方式更符合市场本质,但对模型架构提出了更高的要求。
预测目标与 Scaling Laws
预测视界(Horizon)的困境
预测目标的选择直接制约了模型的复杂度:
- 极短周期(如下一笔成交):数据量巨大,信噪比相对较高,但对延迟要求极高,模型必须极度轻量化。
- 长周期(如一小时后):允许使用复杂的大模型,但有效数据样本量急剧下降,且信噪比极低,模型容易过拟合。
在这两者之间,如果选择预测“1分钟后的价格”,虽然存在丰富的信号,但由于延迟限制,不仅需要构建复杂的大模型,还面临着无法实时运行推理的工程瓶颈。
Scaling Laws 在金融中的验证
HRT 的研究证实,Scaling Laws 在金融领域依然成立。随着模型参数量和训练数据量的增加,模型性能呈现出可预测的提升。HRT 拥有超过 100TB 经过清洗的全球全资产类别市场数据(相当于数万亿 Tokens),并利用顶级规模的 GPU 集群进行训练。在足够大的数据规模下,大模型展现出显著优于小模型的预测能力。
金融 AI 的独特性
与 NLP/CV 的本质差异
- 信噪比极低:金融数据中绝大部分是噪声。人类无法通过观察 LOB 数据直观判断价格涨跌,因此性能基线并非人类水平,而是从一开始就必须达到 超人类 (Super-human) 水平。
- 无完美仿真器:与 Atari 游戏或围棋不同,金融市场不存在完美的模拟器。市场环境是非平稳的,且交易是非零和博弈。历史回测无法完美复刻市场冲击和对手方的实时反应,这限制了传统强化学习在端到端交易策略中的直接应用。
- 特征工程的重要性:尽管端到端学习是趋势,但在将原始 LOB 数据输入模型之前,通常仍需进行专业的特征工程,将非结构化的流数据转换为模型可理解的向量表示。
结论
构建金融基础模型不仅是一个算法问题,更是一项涉及工程与数据的系统性工程。其核心在于利用海量历史数据训练深度模型以提取微弱的 Alpha 信号,同时通过架构创新(例如改进 Transformer 的推理效率或优化 RNN 的记忆能力)来突破延迟瓶颈。在硬件算力与数据规模的双重驱动下,深度学习在量化交易中的应用,正从简单的统计套利向着通用化、基础模型化的方向演进。对这类前沿技术的持续探索与分享,正是技术社区如云栈社区所关注的核心领域之一。
|