新浪财经

“海量”专题(177)——高频因子的现实与幻想

海通量化团队

关注

来源:海通量化团队

高频行情数据蕴含丰富的信息,但市场上少有对此类数据的特征及如何应用的详细介绍。本文从高频行情数据的组成和结构出发,系统整理了十几个既有经济学逻辑,又表现良好的因子,并通过多因子指数增强模型展现其实践价值。

1

高频数据介绍

1.1

Level2行情数据概况

Level2行情数据是目前国内证券市场上对于交易信息包含最为完整,颗粒度最为精细的行情数据产品。最早由沪深交易所于2006年筹划推出,并在2012年末彻底完善。

交易所提供的数据产品中,较为常用的有以下四种形式。

分钟K线:即当日全天的分钟K线行情。相比传统K线,包含了分钟成交笔数信息。

盘口快照:即常用的每3秒一个切片的十档委托行情。其中,也包括该时刻的委托总量和平均委托价格信息。

委托队列:即买一、卖一的总委托单数,以及前50笔委托的明细信息。

成交明细:即两个3秒快照之间,详细的逐笔成交与逐笔委托信息。

Level2行情数据已覆盖在沪深两市上市的股票、可交易型基金、沪深交易所指数等大量品种,还在积极扩展纳入ETF期权等沪深交易所上市的衍生品,基本可以满足对A股市场的研究、投资和交易需求。

不过,需要注意的是,沪深交易所的Level2行情数据也存在一定的差异,主要体现在成交明细这个数据产品中。

从数据内容来看,上交所的成交明细数据不包括逐笔委托数据,即没有详细的挂撤单信息。在逐笔成交数据中,也没有标记为撤单的逐笔成交。因此,如果利用日内成交明细中,和委托相关的数据构建因子或信号,可能会出现沪深两市覆盖不均衡的问题。

从数据更新的频率来看,深交所的逐笔成交与逐笔委托数据是实时推送的,与数据的最小时间戳0.01秒基本一致。而上交所则是每三秒,将过去三秒内的所有逐笔成交数据打包后发送。与分析和处理历史数据不同,这种数据推送模式的差异会对那些实时盯盘策略的研发产生较大影响。

1.2

Level2行情数据的结构与特性

分钟数据是Level2行情数据中数据字段最少、频率最低的产品。每个股票每日只有固定的240个数据,单日数据量在100MB左右。

盘口快照数据的抽样规则为每3秒一次,但只记录前后两个时刻盘口有变化的数据。因此,每个股票每日的盘口快照数目并不固定,单日数据量在6GB左右。

委托队列数据的更新频率与盘口快照数据相同,但结构较为简单。因此,单日数据量相对也会小一些。

逐笔成交数据记录的最小时间间隔为0.01秒,但事实上,在每个0.01秒内有可能出现多笔成交。Level2行情数据对0.01秒内的真实成交时点进行了模糊处理,并不加以区分。

逐笔成交数据的单日数据量与盘口快照类似,也在6GB左右。需要注意的是,由于交易活跃度不同,不同标的之间的单日数据量会有很大差异。

逐笔委托数据为深交所特有的产品,其结构的复杂程度与逐笔成交数据类似,但单日数据量一般更大。

2

基于高频数据的因子

根据分钟、TICK、逐笔三个级别的高频数据,可以相应构建三种类型的高频因子。在下文的检验中,所有高频因子均已和行业、市值、中盘、反转、波动、换手等常规因子正交,买入、卖出价格为调仓日均价,未考虑交易成本。

2.1

基于分钟成交数据的高频因子

高频偏度

Amaya et al. (2011)在《Does Realized Skewness and Kurtosis Predict the Cross-Section of Equity Returns?》一文中发现,股票高阶矩与未来收益之间存在联系。并利用股票的日内分时数据,构建了高频方差、高频偏度和高频峰度三个指标,其中高频偏度具有较强的选股效果。

高频偏度刻画了股票价格日内快速拉升或下跌的特征。假设有两只股票日内涨幅相同,其中一只股票的涨幅由持续稳定的小幅上涨累计而来,而另一只股票的上涨源自于短期的大幅拉升,那么后者在未来有较大概率出现收益反转。从风险溢价角度来看,日内经常快速下跌,或者下行风险大的股票具有更高的风险溢价。因子计算公式如下:

其中,i、j、n分别代表第i只股票、第j分钟和第n个交易日。月度选股下T取20,周度选股下T取5(下同)。

高频偏度因子月均Rank IC为3.41%,年化ICIR为3.48。因子月均多空收益为1.07%,月度胜率为83%。月均多头收益为0.27%,月均空头收益为-0.80%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

下行波动占比

下行波动占比与高频偏度的逻辑基本一致,因子计算公式如下:

下行波动占比因子月均Rank IC为3.03%,年化ICIR为3.02。因子月均多空收益为0.94%,月度胜率为78%。月均多头收益为0.21%,月均空头收益为-0.73%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

尾盘成交占比

一般来说,股票日内成交量呈现“U”型或者“W”型走势,即成交量在开盘和收盘阶段比其他交易时段更高,午间休市可能导致下午开盘时成交量也出现高点。各个时点的成交量分布能够反映投资者的行为特征,蕴含额外信息。

以半小时为间隔划分成八个区间,计算每个区间成交量占比,并使用股票过去 T日指标均值作为因子值。检验发现,10:00之前,14:30之后的成交量占比因子和股票下月收益负相关;10:00-11:00的成交量占比因子和股票下月收益显著正相关。其中,尾盘(14:30之后)成交占比因子的选股效果最显著。因子计算公式如下:

尾盘成交占比因子具有较好的效果可能源于,(1)尾盘投机度高,容易出现价格操纵行为;(2)非知情交易者(散户)不愿承担日内波动,更倾向于尾盘交易,而知情交易者(机构)则倾向于在早盘交易。

尾盘成交占比因子月均Rank IC为4.86%,年化ICIR为3.59。因子月均多空收益为1.62%,月度胜率为82%。月均多头收益为0.52%,月均空头收益为-1.10%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

高频量价相关性

Worldquant在Alpha 101中使用机器学习的方法挖掘出一系列日频因子,其中多个因子中包含量价相关性指标。若将该因子拓展到日内分钟级别,依然有较强的选股能力。因子计算公式如下:

量价背离的股票未来表现更好,即,日内缩量上涨或者放量下跌优于放量上涨或缩量下跌。可能的原因是,缩量上涨持续性强,放量下跌换手充分。

高频量价相关性因子月均Rank IC为4.09%,年化ICIR为3.33。因子月均多空收益为1.18%,月度胜率为75%。月均多头收益为0.11%,月均空头收益为-1.07%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

改进反转

传统的反转因子——一个月累计涨幅,2017年以来有效性有所减弱。一个重要的原因是投资者更加注重基本面研究和价值投资,青睐基本面向好的公司,抛弃基本面恶化或者业绩“爆雷”的公司。

大多数公司选择在收盘后发布财务数据等重要信息,造成股票次日往往跳空开盘,并在随后一段时间大幅波动。近年来,A股机构投资者占比提升,市场交易行为在慢慢向美国等发达市场靠拢。这种在美股财报季常见的开盘跳空现象属于市场对重要数据或信息的合理定价,而非投资者行为造成的错误定价。基于以上推断,可以尝试将隔夜和开盘后半小时的涨幅剔除,构建改进反转因子。因子计算公式如下:

改进反转因子月均Rank IC为4.33%,年化ICIR为3.74。因子月均多空收益为1.40%,月度胜率为82%。月均多头收益为0.28%,月均空头收益为-1.12%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

平均单笔流出金额占比

股票下跌时,如果单笔成交金额大,说明委买有大单,是一种抄底行为。因子计算公式如下:

平均单笔流出金额占比因子月均Rank IC为3.03%,年化ICIR为3.15。因子月均多空收益为1.07%,月度胜率为81%。月均多头收益为0.50%,月均空头收益为-0.57%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

大单推动涨幅

平均单笔成交金额较大的K线多空博弈激烈,未来的反转效应更强。因子计算公式如下:

其中,𝑰𝒅𝒙𝑺𝒆𝒕表示j日平均单笔成交金额最大的30%的K线的序号。

大单推动涨幅因子月均Rank IC为3.71%,年化ICIR为3.79。因子月均多空收益为1.32%,月度胜率为83%。月均多头收益为0.33%,月均空头收益为-0.99%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

2.2

分钟高频因子在不同指数范围内的月度选股能力

下表统计了各分钟高频因子在中证500指数内的月度选股能力。其中,尾盘成交占比、改进反转和大单推动涨幅具有相对较强的选股能力。

下表统计了各分钟高频因子在沪深300指数内的月度选股能力。其中,尾盘成交占比和高频偏度具有相对较强的选股能力。

2.3

分钟高频因子在不同指数范围内的周度选股能力

下表统计了各分钟高频因子在全A内的周度选股能力。其中,改进反转和大单推动涨幅具有相对较强的选股能力。

下表统计了各分钟高频因子在中证500指数内的周度选股能力。其中,改进反转和量价相关性具有相对较强的选股能力。

下表统计了各分钟高频因子在沪深300指数内的周度选股能力。其中,改进反转和量价相关性具有相对较强的选股能力。

2.4

基于TICK委托数据的高频因子

开盘后净委买增额占比

盘口委托挂单数据刻画了投资者的买入意愿,开盘后30分钟内的委买增量越大,投资者在这段时间内的买入意愿越强。因子计算公式如下:

开盘后净委买增额占比因子月均Rank IC为4.19%,年化ICIR为4.24。因子月均多空收益为1.33%,月度胜率为82%。月均多头收益为0.68%,月均空头收益为-0.65%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

2.5

基于逐笔成交数据的高频因子

开盘后净主买占比

逐笔成交数据中包含投资者主动买入和主动卖出的信息,将两者的成交金额相减即可得到净主动买入的金额(简称“净主买”)。开盘后净主买占比因子刻画了投资者在开盘后30分钟内,净买入行为的强度。开盘后净主买占比越高,投资者的主动买入行为越强。因子计算公式如下:

开盘后净主买占比因子月均Rank IC为3.31%,年化ICIR为2.51。因子月均多空收益为0.98%,月度胜率为73%。月均多头收益为0.55%,月均空头收益为-0.42%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

开盘后净主买强度

开盘后净主买强度因子刻画了投资者在开盘后30分钟内,净买入行为的稳健性。开盘后净主买强度越高,投资者的主动买入行为越稳健。因子计算公式如下:

开盘后净主买强度因子月均Rank IC为4.46%,年化ICIR为3.29。因子月均多空收益为1.34%,月度胜率为72%。月均多头收益为0.44%,月均空头收益为-0.91%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

大买成交占比

基于逐笔成交数据中的单号,可将逐笔数据合成为单成交数据,并从单的角度区分大小单。再根据对应的“买”、“卖”标记,可进一步计算大买单占全天成交金额的比例(简称“大买成交占比”)。大买成交占比越高,大单买入行为越强。因子计算公式如下:

在界定大小单时,可从单的成交量分布出发。例如,某一单的成交量处于当日成交量分布的均值+1倍标准差之外,则可被认为是大单。

大买成交占比因子月均Rank IC为4.35%,年化ICIR为1.96。因子月均多空收益为1.35%,月度胜率为66%。月均多头收益为0.39%,月均空头收益为-0.96%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

开盘后知情主卖占比

结合逐笔成交数据中的主买、主卖和预期外收益,可定义知情主卖,用以刻画知情交易者的卖出行为。开盘后知情主卖占比越高,知情交易者卖出行为越强,投资者对股票未来的表现越悲观。

首先,使用股票过去一个月的日内分钟收益序列,建立如下的回归模型:

其中,ri,j,n为股票i在n日第j分钟的收益;Dk,i,j,nweekday为虚拟变量(k=1, 2, 3, 4),分别表示周一至周四;Dk,i,j,nperiod为时间段虚拟变量(k=1, 2, 3),分别表示开盘后30分钟、盘中及收盘前30分钟;ri,j-1,n为分钟收益滞后项。

残差序列为股票的预期外收益。当预期外收益为正时,投资者的主动卖出行为可被认为是知情主卖;反之,则被认为是知情主买。因子计算公式如下:

开盘后知情主卖占比因子月均Rank IC为2.86%,年化ICIR为2.51。因子月均多空收益为0.76%,月度胜率为75%。月均多头收益为0.46%,月均空头收益为-0.30%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

2.6

基于TICK委托与逐笔成交数据的高频因子

开盘后买入意愿占比

委托挂单体现投资者尚未释放的交易意愿,而主买/主卖则代表已进行的交易行为。若将两者结合,可以得到广义的投资者主动买入意愿。开盘后30分钟内买入意愿占比越高,投资者的买入意愿越强。因子计算公式如下:

开盘后买入意愿占比因子月均Rank IC为4.34%,年化ICIR为3.43。因子月均多空收益为1.57%,月度胜率为85%。月均多头收益为0.89%,月均空头收益为-0.68%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

开盘后买入意愿强度

开盘后30分钟内的买入意愿强度越高,投资者的买入意愿越稳健。因子计算公式如下:

开盘后买入意愿强度因子月均Rank IC为5.07%,年化ICIR为3.93。因子月均多空收益为1.82%,月度胜率达84%。月均多头收益为0.68%,月均空头收益为-1.14%。以下两图分别展示了因子的累计Rank IC与多空相对强弱走势。

2.7

TICK与逐笔高频因子在不同指数范围内的月度选股能力

下表统计了各TICK与逐笔高频因子在中证500指数内的月度选股能力。其中,大买成交占比、开盘后买入意愿强度和开盘后净主买强度具有相对较强的选股能力。

下表统计了各TICK与逐笔高频因子在沪深300指数内的月度选股能力。其中,开盘后净委买增额占比、大买成交占比和开盘后买入意愿占比具有相对较强的选股能力。

2.8

TICK与逐笔高频因子在不同指数范围内的周度选股能力

下表统计了各TICK与逐笔高频因子在全A内的周度选股能力。其中,开盘后买入意愿强度、开盘后净主买强度和大买成交占比具有相对较强的选股能力。

下表统计了各TICK与逐笔高频因子在中证500指数内的周度选股能力。其中,开盘后买入意愿强度和开盘后净主买强度具有相对较强的选股能力。

下表统计了各TICK与逐笔高频因子在沪深300指数内的周度选股能力。其中,大买成交占比和开盘后净委买增额占比具有相对较强的选股能力。

2.9

高频因子相关性分析

高频因子相关系数矩阵如以下两图所示。从中可见,构造逻辑相近的因子之间相关性较高。例如,高频偏度和下行波动占比因子值、Rank IC的相关系数均为-0.89。此外,使用同频率数据构造的因子之间相关性较高。例如,使用逐笔数据构造的开盘后净主买占比和开盘后净主买强度因子值、Rank IC的相关系数分别为0.90和0.93。

而使用不同频率构造的因子之间相关性普遍较低。例如,基于分钟数据的大单推动涨幅与基于TICK数据的开盘后净委买增额因子值、Rank IC的相关系数仅为-0.06和-0.03。由于可见,基于分钟、TICK、逐笔等不同频率的数据构建高频因子,可以起到风险分散的效果。

3

高频因子在多因子组合中的应用

基于高频数据构建的因子,具有非常稳健的IC表现和空头收益,可以通过多种方式为多因子组合提供新的信息。例如,在个股收益预测模型直接加入高频因子,利用高频因子剔除空头个股等。

3.1

直接作为Alpha因子引入收益预测模型

一种最简单直接的利用高频因子的方式即为,在个股收益预测模型中引入高频因子。

提升收益预测模型的表现

如下表所示,在包含风格、低频技术因子、基本面因子的基础收益预测模型中,引入下行波动占比、尾盘成交占比和改进反转3个高频因子,可明显提升收益预测模型的表现。其中,IC、RankIC、多空收益的月均值都明显上升。同时,以月胜率反映的模型稳定性也有所提升。相应地,信息比也得到显著改善。

下表中的多头收益是指预期收益最高的100只股票等权组合相对于全市场等权组合的收益差;空头收益是全市场等权组合相对于预期收益最低的100只股票等权组合的收益差;多空收益是多头收益与空头收益之和。

提升指数增强策略的超额收益

在收益预测模型中引入高频因子,还可提升指数增强策略的超额收益。在包含风格、低频技术因子、基本面因子的收益预测模型中,引入部分高频因子,并相对于基准指数进行线性优化,得到的指数增强策略超额收益表现列于下表。

其中,沪深300指数和中证800指数增强策略中引入的高频因子为尾盘成交占比;中证500指数增强策略中引入的因子为下行波动占比、尾盘成交占比和改进反转。

由上表可见,引入高频因子可以在不明显增加风险的基础上,提升指数增强策略的超额收益表现,尤其是信息比和收益回撤比均得到明显提升。以沪深300指数增强策略为例,若在收益预测模型中引入尾盘成交占比因子,则年化超额收益可由10.56%增加至12.32%,收益提升幅度达1.75%,信息比由2.28提升至2.51,收益回撤比由1.95增加至2.98。

3.2

构建空头虚拟变量因子

部分高频因子在指数成分股中的多头效应弱,直接作为Alpha因子加入收益预测模型,可能会对模型多头部分的排序造成负向扰动,反而降低增强策略的收益。在这种情况下,可以尝试构建空头虚拟变量因子,仅利用高频因子的空头效应。即,将在高频因子上得分最低的部分股票(如5%)的因子值设为1,其余股票的因子值设为0,构建虚拟变量因子,然后加入个股收益预测模型。

如下表所示,对于中证800指数增强策略,若直接以因子形式引入大单推动涨幅因子,年化超额收益不升反降,由17.91%降低至16.54%。但若以空头虚拟变量因子的形式引入,则年化超额收益由17.91%提升至18.61%。同时,信息比和收益回撤比均得到明显改善。

3.3

利用高频因子剔除空头个股

高频因子空头效应强且在时间序列上稳定,因此可直接利用高频因子来剔除空头个股,以增厚指数增强策略的超额收益。剔除的思路主要有两种:事前剔除和事后剔除。

事前剔除是指,通过调低属于高频因子空头部分个股的预期收益(如,设定空头个股的预期收益为横截面上的最低值),或增加约束条件(如,设定空头个股权重为0)的方式,使空头股票不出现在最终的优化组合之中。事后剔除则是指,按照原模型得到增强组合后,剔除其中属于高频因子空头部分的个股。

两者都是利用高频因子的空头个股信息对组合进行调整。不同之处在于,前者是在获取增强组合之前做剔除,因此优化模型会补充一些风险相近的个股,来替代被剔除的空头个股;而事后剔除则仅仅是剔除,没有做补充。

3.3.1

事前剔除

如下表所示,以5%为空头阈值,采用事前剔除方法剔除高频因子的空头个股(调低空头个股预期收益),可提升指数增强策略的超额收益表现。特别是对于中证500指数增强策略,事前剔除可将策略年化超额收益由22.5%提升至23.8%,提升幅度达1.3%。

从空头阈值敏感性来看,在4%-8%的范围内,事前剔除均可提升指数增强策略的年化超额收益。

3.3.2

事后剔除

如下表所示,以5%为空头阈值,采用事后剔除方法剔除高频因子的空头个股,同样可以提升指数增强策略的超额收益表现。对于中证500和中证800指数增强策略,事后剔除都可将策略的超额收益提升1个百分点以上。

从空头阈值敏感性来看,在4%-10%的范围内,事后剔除均可明显提升指数增强策略的年化超额收益。

综上所述,无论是事前还是事后,剔除高频因子的空头个股均可提升指数增强策略的超额收益。相较而言,在绝大部分阈值水平下,事后剔除的效果更好。这可能是由于,事后剔除主要依赖高频因子的空头效应。而事前剔除则相对较为复杂,还会受优化模型中其他控制变量的影响。事前剔除能否提升增强策略的超额收益,不仅取决于高频因子的空头效应,还与优化模型额外剔除的股票以及补充的股票相关,因而效果并不直接。

3.4

小结

本节探讨了3种在多因子组合中应用高频因子的方法,实证结果表明,这3种方法均可在一定程度上提升指数增强策略的超额收益。

下表展示了以本节探讨的3种方法引入高频因子前后,指数增强策略分年度的超额收益。从中可见,对于沪深300指数、中证500指数和中证800指数,引入高频因子的信息后,均可将指数增强策略的年化超额收益提升2.6%以上。并且,在时间序列上也较为稳定。在绝大部分年份中,引入高频因子后的策略都优于基准策略。

其中,沪深300指数和中证500指数增强策略采用直接作为Alpha因子引入收益预测模型、事后剔除两种方法;而中证800指数增强策略采用直接作为Alpha因子引入收益预测模型、构建空头虚拟变量因子、事后剔除3种方法。

4

总结与讨论

在美国市场,使用高频数据来生成交易信号并获取收益,已成为一类主流的策略。而国内市场上,一些优秀的私募也在最近几年纷纷将高频策略付诸实践,并创造出稳定且优异的业绩。随着他们的成功,越来越多的投资者开始关注和研究高频数据,试图揭开其中的原理和规律。

工欲善其事,必先利其器。高频策略的基础是高频数据,故本文首先详细介绍了当前A股可获得的三个层级的高频数据——分钟级、TICK级和逐笔级,它们的结构和特性决定了交易信号或量化因子的设计方法。

其次,本文在这三个层级上,构建了总计14个高频因子。并在剔除常见因子的影响后,证明了这些因子在全市场、沪深300及中证500成分股内都具备稳定、可靠的月度和周度选股能力。

最后,但也是最重要的一点。不论是直接作为收益预测因子,还是用作负面剔除,将这些高频因子包含的信息引入传统的量化多因子模型,均可以为增强策略的收益风险特征带来较为显著的提升。

5

风险提示

因子失效风险,模型误设风险,历史统计规律失效风险。

联系人:

袁林青,021-23212230

罗蕾,021-23219984

姚石,021-23219443

余浩淼,021-23219883

【俄乌互指对方未遵守复活节临时停火提议】俄罗斯国防部20日说,乌克兰军队不顾复活节停火提议继续向俄方发动袭击。乌克兰总统泽连斯基同日表示,复活节期间俄军攻击仍在继续。(新华社)

德国地球科学研究中心(GFZ)消息:印度尼西亚西巴布亚地区发生5.5级地震。

【哈马斯代表团与土耳其外长就加沙停火举行会谈】当地时间20日晚间,巴勒斯坦伊斯兰抵抗运动(哈马斯)发表声明,表示由该组织协商会议主席穆罕默德·达尔维什率领的哈马斯代表团继续在土耳其首都安卡拉进行正式访问,并于当地时间19日晚在安卡拉会见了土耳其外交部长哈坎·费丹。声明称,在与土耳其外长会谈中,双方重点讨论了阻止以色列对加沙地带持续的袭击,以及哈马斯关于达成加沙全面停火协议的愿景。哈马斯认为,全面停火协议应当包括与以色列进行双方人员交换、以色列永久停火、实施加沙重建以及以色列解除对加沙的封锁。(央视新闻)

【俄乌互指对方未遵守复活节临时停火提议】俄罗斯国防部20日说,乌克兰军队不顾复活节停火提议继续向俄方发动袭击。乌克兰总统泽连斯基同日表示,复活节期间俄军攻击仍在继续。(新华社)

德国地球科学研究中心(GFZ)消息:印度尼西亚西巴布亚地区发生5.5级地震。

热门评论点击查看更多

用户7568176213 0
好复杂
四川宜宾
回复TA

众多新闻客户端用户正在参与精彩热评,快快加入吧!

好的评论会让人崇拜
查看1条评论
请输入评论内容

举报成功

举报

请您选择举报的原因

说说你的看法

打开APP
意见/建议 反馈入口
  • TOKEN
  • 标题/昵称
  • 反馈内容

已反馈成功~