华泰金工 | 多角度改进高频量价选股模型
随着市场微观结构研究的深入,高频量价数据在量化投资中的重要性日益凸显。传统的人工挖掘因子和简单模型方法难以充分捕捉高频数据中的复杂规律。本文从因子端、模型端、标签端三个角度,探讨对前期高频量价模型的改进:在因子端引入大语言模型生成的分钟线、等量K线和tick因子;在模型端采用Transformer架构,并借鉴iTransformer和Crossformer模型引入变量间注意力;在标签端将预测目标从未来10日总收益调整为未来10日逐日收益序列。改进因子周度RankIC提升至11.64%,全A多头年化超额收益达25.94%,中证1000指数增强组合在80%成份股和无成份股约束场景下的年化超额收益分别达到20.25%和21.31%,信息比率分别为3.60和3.18。
人工智能89:从因子端、模型端、标签端改进高频量价选股模型
随着市场微观结构研究的深入,高频量价数据在量化投资中的重要性日益凸显。传统的人工挖掘因子和简单模型方法难以充分捕捉高频数据中的复杂规律。本文从因子端、模型端、标签端三个角度,探讨对前期高频量价模型的改进:在因子端引入大语言模型生成的分钟线、等量K线和tick因子,以更全面地捕捉市场信息;在模型端采用Transformer架构,并借鉴iTransformer和Crossformer模型,通过引入变量间注意力机制,提升对高频数据的表征能力;在标签端将预测目标从未来10日总收益调整为未来10日逐日收益序列,以提供更细粒度的投资信号。
改进方向一:引入大语言模型生成因子
我们利用大语言模型,分别基于分钟线、等量K线和tick数据各生成100个因子。其中,分钟线因子刻画了股票日内收益、价格波动、成交分布、量价相关性等特征;等量K线因子反映了股票在均匀成交量下的价格趋势、价格波动、收益分布等特征;tick因子则捕捉了股票流动性、订单不平衡等特征。实证结果表明,相比于人工特征集,基于GPT特征集训练的深度学习因子在多个指标上表现更优,2017年初至2025年2月底的周度RankIC达11.18%,全A多头年化超额收益为25.51%,在80%成份股和无成份股约束场景下构建中证1000指数增强组合,年化超额收益分别达到19.08%和20.67%,信息比率分别为3.26和2.81。
改进方向二:引入变量间注意力
Transformer通过多头注意力捕捉输入序列中不同位置间的依赖关系;iTransformer创新性地将时间序列维度反转,通过自注意力机制捕捉变量间的相关性;Crossformer则通过两阶段注意力机制,同时捕捉多变量时间序列中跨时间和跨维度的复杂关系。回测结果显示,iTransformer和Crossformer训练得到的因子在RankICIR和多头信息比率上均优于传统Transformer模型。三类模型集成后的复合因子表现更为突出,周度RankIC提升至11.64%,全A多头年化超额收益达25.94%,中证1000指数增强组合在80%成份股和无成份股约束场景下的年化超额收益分别达到20.25%和21.31%,信息比率分别为3.60和3.18。
改进方向三:引入收益序列预测
与直接预测总收益相比,逐日收益序列预测能够更好地捕捉市场短期波动特征,提供更细粒度的投资信号,同时充分利用了更高信息密度的标签数据。在收益序列预测场景中,Transformer的decoder模块通过掩码多头注意力机制,在避免未来信息泄露的前提下学习目标序列间的依赖性,并通过多头注意力学习输入序列和目标序列之间的关联。测试结果表明,decoder能够相对有效预测未来10日的逐日收益,但简单求和的方式可能会造成信息损失,其单因子测试和指数增强效果均不及传统的总收益预测模型。未来可探索多周期优化等更合适的应用场景,以充分发挥收益序列预测的优势。
风险提示:大模型生成的因子在回测中存在引入未来信息的风险。高频量价模型对市场微观结构的依赖较强,未来市场变化可能导致模型失效。Transformer架构的复杂性会带来训练和推理时间增加,以及过拟合风险。
01 研究导读
随着市场微观结构研究的深入,高频量价数据在量化投资中的重要性日益凸显。高频数据包含了丰富的市场信息,能够为选股策略提供更精准的信号。然而,传统的人工挖掘因子和简单模型方法难以充分捕捉高频数据中的复杂规律。因此,如何更有效地利用高频数据,成为量化投资领域的重要研究方向。
在前期研究《基于全频段量价特征的选股模型》(2023-12-8)中,我们构建了一个基于GRU的高频深度学习模型。利用分钟线、逐笔成交和逐笔委托数据,先人工构建了27个高频因子,再通过GRU网络对这些因子进行合成,预测未来10日总收益。测试结果表明,该模型在RankIC、多头收益等指标上表现显著优于等权和ICIR加权合成方法。然而,随着市场环境的变化和技术的发展,该模型仍有进一步优化的空间。
近年来,大语言模型引领了科技界和产业界的技术变革,不仅为数学、化学、物理、生物等多个领域的科学研究提供了重要支持,而且验证了Transformer架构显著优于传统序列神经网络的性能。受此启发,本文将从因子端、模型端、标签端三个角度,提出对高频量价模型的改进方案:
(1)在因子端引入大语言模型生成的分钟线、等量K线和tick因子,以更全面地捕捉市场信息;
(2)在模型端采用Transformer架构,并借鉴iTransformer和Crossformer模型,通过引入变量间注意力机制,提升对高频数据的表征能力;
(3)在标签端将预测目标从未来10日总收益调整为未来10日逐日收益序列,以提供更细粒度的投资信号。
实证结果表明,因子端和模型端的改进方案均能提升选股效果,而标签端的改进方案在目前单周期组合优化的框架下并无优势,可能需要探索更适用的场景。
02 因子端:引入大语言模型生成因子
因子构建
在高频量价模型的构建中,因子的质量和多样性直接影响模型的预测能力。传统的人工挖掘因子方法虽然能够捕捉部分市场信息,但可能存在一定的局限性。随着大模型技术的快速发展,利用大语言模型生成因子成为因子挖掘的重要方向。前期报告《GPT因子工厂:多智能体与因子挖掘》(2024-2-20)和《GPT因子工厂2.0:基本面与高频因子挖掘》(2024-9-26),已展现出大语言模型对日频量价、分钟频量价和基本面数据的信息挖掘能力。本文基于分钟线、等量K线和tick数据,引入大模型生成的特征,以捕捉更丰富的市场微观信息。
分钟线数据包括股票每分钟的开盘价、最高价、最低价、收盘价、成交金额、成交量、成交笔数等数据。基于分钟线数据,利用大语言模型生成100个因子,以刻画股票日内收益、价格波动、成交分布、量价相关性等特征,具体构建方法参考《GPT因子工厂2.0:基本面与高频因子挖掘》(2024-9-26)。
等量K线是一种基于成交量而非时间划分的K线构建方法,其定义是将一定数量的成交量作为一根K线的单位,本研究的构建方法如下:
(1)计算每只股票过去n个交易日的总成交量,除以设定的K线数量bar_num,得到每根等量K线的成交量;
(2)按照时间顺序遍历1分钟K线,当累计成交量达到等量K线成交量的倍数时,生成1根等量K线,记录其开盘价、最高价、最低价、收盘价、成交量加权均价。
与传统的分钟K线相比,等量K线能够更准确地反映市场的真实交易行为,尤其是在成交量分布不均匀的情况下。基于等量K线的价格数据,同样利用大语言模型生成100个因子,反映股票在均匀成交量下的价格趋势、价格波动、收益分布等特征。
相比于分钟线数据,tick数据更新频率更高(每3秒更新一次),包括10个档位的买入价、买入量、买入笔数、卖出量、卖出价、卖出笔数等信息。我们额外引入了一些针对性的算子,如档位求和、档位求差等。最后再利用大语言模型生成100个因子,捕捉股票流动性、订单不平衡等特征。
本研究使用的大语言模型为OpenAI开发的o1-preview,其训练截止日期为2024-09-12,此后可视为严格的样本外时段。
因子训练
为验证和比较不同类型因子的有效性,初步使用Transformer进行因子合成训练。Transformer完整架构包括encoder和decoder,这里仅使用encoder来表征因子数据,最后通过全连接层输出对未来10日收益的预测。模型网络结构和数据细节如下。
因子测试
为了减轻随机性干扰,本文的深度学习模型都用不同随机数种子训练三次,将三次的模型等权集成,作为最终的因子信号进行回测。因子测试方法如下:
1.股票池:全A股,剔除ST股票,剔除每个截面期下一交易日停牌、涨停的股票。
2.回测区间:2017/1/1~2025/2/28。
3.调仓周期:周频,不计交易费用。
4.测试方法:IC值分析,因子分10层测试。
相比于人工特征集,基于不同类型GPT特征集训练的深度学习因子,在RankIC均值、TOP组合年化超额收益率、TOP组合胜率等多项指标上均表现更优,同时TOP组合换手率有所降低。将三类GPT特征集合并后训练的因子,综合表现进一步提升。
指增测试
中证1000增强测试方法如下,其中成份股权重约束考虑不低于80%、无约束两种场景。
在两种场景下,GPT合并特征集训练出的因子所构建的增强组合收益表现都明显优于人工特征集。近两年,80%成份股约束下中证1000增强的超额收益出现衰减的迹象,可能是因为随着中证1000增强产品数量和规模增长,成份股内的alpha竞争加剧。解除80%成份股限制后,超额收益有所提升,不过也会放大跟踪误差和超额最大回撤。
因子相关性分析
相关性分析显示,不同特征集训练得到的因子具有较大的差异性,不过因子普遍具有反转、小市值、低流动性、高beta、低估值等风格暴露。
03 模型端:引入变量间注意力
模型介绍
Transformer的核心机制是多头注意力,能够捕捉输入序列中不同位置间的依赖关系。注意力机制还可以迁移到其他场景,例如前期报告《Attention is indeed all you need》(2023-8-22)展示了注意力机制在时序数据、股票间关系以及任务间关联中的应用。这说明注意力机制具有强大的泛化能力,能够灵活地建模复杂的关系。本研究将探讨如何将注意力机制应用于变量间的依赖关系,以增强对因子间交互作用的建模。
iTransformer(Inverted Transformer)发表于2024年的ICLR,其核心思想是将时间序列维度反转。具体来说,iTransformer将每个变量的时间序列嵌入为独立的token,并通过自注意力机制捕捉变量间的相关性,同时利用前馈网络学习每个变量的非线性表示。这种设计使得iTransformer能够更好地处理多变量时间序列中的复杂依赖关系,同时避免了传统Transformer在处理长序列时性能下降和计算爆炸的问题。实验表明,iTransformer在多个真实世界数据集上取得了最先进的性能,展现了其在多变量时间序列预测中的强大能力。
Crossformer发表于2023年的ICLR,其核心创新在于同时捕捉多变量时间序列中跨时间和跨维度的依赖关系。Crossformer通过维度分段嵌入(Dimension-Segment-Wise Embedding)将每个变量的时间序列分段嵌入为2D向量数组,并通过两阶段注意力(Two-Stage Attention)机制分别捕捉时间维度和变量维度上的依赖关系。此外,Crossformer采用分层编码器-解码器(Hierarchical Encoder-Decoder)结构,利用不同尺度的信息进行预测。这种设计使得Crossformer能够更高效地建模多变量时间序列中的复杂关系,并在多个真实世界数据集上取得了领先的性能。
本研究继续以前文GPT特征集的300个因子为例,测试iTransformer和Crossformer的选股效果,并与Transformer进行对比。iTransformer和Crossformer的模型细节如下。
因子测试
相比于Transformer模型,iTransformer模型的RankIC均值和TOP组合年化超额收益率略低,但RankICIR和TOP组合信息比率更高;Crossformer模型的RankIC均值、RankICIR和TOP组合信息比率更优。将三类模型复合后得到的因子,RankIC均值和TOP组合年化超额收益率进一步提升。
指增测试
在指增测试中,iTransformer模型和Crossformer模型的信息比率均高于Transformer模型,复合模型的超额收益表现最优。
因子相关性分析
不同模型训练出的因子具有较高的相关性。
04 标签端:引入收益序列预测
此前的深度学习选股模型,通常是将未来一段时间的总收益作为预测目标,很少对收益率序列展开预测,比如逐日收益。与直接预测总收益相比,预测逐日收益序列可能具有以下优势:第一,逐日预测能够更好地捕捉市场短期波动特征,提供更细粒度的投资信号,从而帮助投资者理解市场动态并制定灵活的决策策略。第二,逐日预测能够充分利用更高信息密度的标签数据,提升模型的训练效果。
收益序列预测类似于机器翻译,是一种“序列到序列”任务(seq2seq),即输入因子序列,输出收益序列。此场景下,Transformer的decoder模块可以发挥重要作用。相比于encoder,decoder有两处关键改动:一是加入掩码多头注意力,学习目标序列间的依赖性,掩码的目的是避免未来信息泄露;二是通过多头注意力学习输入序列和目标序列间的关联。此外,decoder在训练和推理阶段也有所差异:例如预测T+5~T+6的收益,训练阶段可以使用T~T+5的真实收益序列辅助训练,而推理阶段采用自回归生成机制,即以T~T+5的预测收益序列作为输入,生成下一时刻的预测,再以此类推,这样能够保证T时刻在不使用任何未来信息前提下输出T~T+10的收益序列。
以Transformer为例,收益序列预测模型的细节如下。
因子测试
以某个随机数种子训练的Transformer收益序列预测模型为例,比较不同周期的预测性能。结果表明,随着预测周期的拉长,单日预测的RankIC逐渐下降,而累计预测的RankIC逐渐提高。这一现象的原因在于:短期收益受噪声影响较大,随着预测周期的拉长,噪声的累积使得单日预测的不确定性增加;而长期累计收益能够平滑噪声的影响,随着预测周期的拉长,累计收益的不确定性降低。
为了与前文模型进行对比,我们基于Transformer、iTransformer和Crossformer分别训练收益序列预测模型,再等权合成,最后将序列简单求和后进行单因子测试。该因子虽然具有一定的选股能力,但效果不及传统的总收益预测模型,这可能是因为不同时点的预测性能存在差异,一般来说时间靠前的交易日包含更重要的信息,预测效果要好于时间靠后的交易日,简单求和会损失这些信息。
指增测试
中证1000增强测试结果显示,收益序列预测模型选股效果仍然弱于总收益预测模型。不过,将两个组合等权配置,跟踪误差有所下降。综上,对收益预测序列简单求和可能不是最佳的使用途径,会造成信息损失,未来可探索多周期优化等更合适的应用场景,以充分发挥收益序列预测的优势。
因子相关性分析
因子相关性分析结果如下。
总结
随着市场微观结构研究的深入,高频量价数据在量化投资中的重要性日益凸显。传统的人工挖掘因子和简单模型方法难以充分捕捉高频数据中的复杂规律。本文从因子端、模型端、标签端三个角度,探讨对前期高频量价模型的改进:在因子端引入大语言模型生成的分钟线、等量K线和tick因子,以更全面地捕捉市场信息;在模型端采用Transformer架构,并借鉴iTransformer和Crossformer模型,通过引入变量间注意力机制,提升对高频数据的表征能力;在标签端将预测目标从未来10日总收益调整为未来10日逐日收益序列,以提供更细粒度的投资信号。
改进方向一:引入大语言模型生成因子。我们利用大语言模型,分别基于分钟线、等量K线和tick数据各生成100个因子。其中,分钟线因子刻画了股票日内收益、价格波动、成交分布、量价相关性等特征;等量K线因子反映了股票在均匀成交量下的价格趋势、价格波动、收益分布等特征;tick因子则捕捉了股票流动性、订单不平衡等特征。实证结果表明,相比于人工特征集,基于GPT特征集训练的深度学习因子在多个指标上表现更优,2017年初至2025年2月底的周度RankIC达11.18%,全A多头年化超额收益为25.51%,在80%成份股和无成份股约束场景下构建中证1000指数增强组合,年化超额收益分别达到19.08%和20.67%,信息比率分别为3.26和2.81。
改进方向二:引入变量间注意力。Transformer通过多头注意力捕捉输入序列中不同位置间的依赖关系;iTransformer创新性地将时间序列维度反转,通过自注意力机制捕捉变量间的相关性;Crossformer则通过两阶段注意力机制,同时捕捉多变量时间序列中跨时间和跨维度的复杂关系。回测结果显示,iTransformer和Crossformer训练得到的因子在RankICIR和多头信息比率上均优于传统Transformer模型。三类模型集成后的复合因子表现更为突出,周度RankIC提升至11.64%,全A多头年化超额收益达25.94%,中证1000指数增强组合在80%成份股和无成份股约束场景下的年化超额收益分别达到20.25%和21.31%,信息比率分别为3.60和3.18。
改进方向三:引入收益序列预测。与直接预测总收益相比,逐日收益序列预测能够更好地捕捉市场短期波动特征,提供更细粒度的投资信号,同时充分利用了更高信息密度的标签数据。在收益序列预测场景中,Transformer的decoder模块通过掩码多头注意力机制,在避免未来信息泄露的前提下学习目标序列间的依赖性,并通过多头注意力学习输入序列和目标序列之间的关联。测试结果表明,decoder能够相对有效预测未来10日的逐日收益,但简单求和的方式可能会造成信息损失,其单因子测试和指数增强效果均不及传统的总收益预测模型。未来可探索多周期优化等更合适的应用场景,以充分发挥收益序列预测的优势。
风险提示:
大模型生成的因子在回测中存在引入未来信息的风险。高频量价模型对市场微观结构的依赖较强,未来市场变化可能导致模型失效。Transformer架构的复杂性会带来训练和推理时间增加,以及过拟合风险。
参考文献:
[1] Zhao W X, Zhou K, Li J, et al. A survey of large language models[J]. arXiv preprint arXiv:2303.18223, 2023, 1(2).
[2] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.
[3] Liu Y, Hu T, Zhang H, et al. itransformer: Inverted transformers are effective for time series forecasting[J]. arXiv preprint arXiv:2310.06625, 2023.
[4] Zhang Y, Yan J. Crossformer: Transformer utilizing cross-dimension dependency for multivariate time series forecasting[C]//The eleventh international conference on learning representations. 2023.
(转自:华泰证券金融工程)