“海量”专题(174)——寻找逐笔交易中的有效信息
海通量化团队
来源:海通量化团队
在之前的高频因子系列报告《选股因子系列研究(五十六)——买卖单数据中的Alpha》中,我们发现基于委托单的大买成交金额占比具有较好的正向选股能力,特别在与常用风格因子正交之后其截面选股效果更为突出。然而与通常逻辑相反,大卖成交金额占比并不具有较好的负向选股能力。因此,本文希望通过对大买,大卖单特性的详尽分析,找到A股市场中,到底什么样类型的成交信息包含更多的未来收益信息。
1
大单成交金额占比因子表现分析
1.1
与大单因子正交后的大买与大卖成交金额占比因子
经过研究后发现,大买成交金额占比因子表现与大卖成交金额占比因子表现,并非对称有效,在进行行业中性处理,并与常用的市值、非线性市值、估值、换手、波动、反转、非流动性、盈利、盈利增速9个风格因子(以下简称9因子)正交后,大买成交金额占比依然有很好的截面收益预测效果,而大卖成交金额占比表现则非常不显著。以超越均值0倍、1倍、2倍和3倍标准差为参数构建因子,具体表现如下表:
比较各个参数条件下的因子截面选股能力表现,对于表现较好的大买成交占比因子,其选股能力稳定性在大于1倍标准差之后会逐步下降。对于大卖成交占比因子而言,0倍标准差下具有IC接近0的正向选股能力,而随着过滤参数提升,其正向选股能力却逐渐上升,与预期效果偏离更加明显。
下表统计了不同过滤参数下,全市场所有股票过滤后所保留的成交金额占全天成交金额比例的分布情况。其中,中位数、均值即全市场所有股票按照该过滤条件过滤后保留成交金额占比的中位数与均值,而<=10%,<=20%则表示过滤后成交金额占比在0%到10%,10%到20%之间的股票占全市场所有股票的比例。
由上表可见,每提升过滤参数,剩余成交额占比均值会下降20%左右,特别在2倍标准差之后,绝大部分标的保留成交额均低于60%。过少的信息量保留或许是在提升过滤参数后因子稳定性下降的主要原因。
相比较于大买成交金额占比因子在中性化后有显著的正向选股能力,大卖成交占比因子与截面收益率呈现微弱的正相关关系,这在0倍标准差参数下最为显著。大买成交金额占比指标较高,某种程度代表拥有较大信息优势的大资金的买入意愿,而大卖成交金额占比则一定程度代表其卖出意愿。这种大资金的买卖意愿强弱是我们设计该因子计算方法的初衷,然而最终的因子表现却与我们预想的结果有所差异。
为了进一步揭示大买成交金额占比因子的选股能力来源,我们以0倍标准差为过滤参数,尝试构建大单成交金额占比因子,即买单或者卖单为大单的所有成交金额占全天成交额比例。同时,我们将大买成交金额占比因子、大卖成交金额占比因子分别与大单成交金额占比因子进行正交,考察剥离大单金额占比影响后,大单买卖意愿,是否有较好的截面选股能力。
从截面选股能力角度来看,将大买、大卖成交金额占比因子与大单成交金额占比因子进行正交,剥离掉大单参与这一因素影响,正交后的因子截面选股效果相比正交前有显著增强。而大卖成交金额占比因子正交后选股效果会进一步削弱,其因子值与股票月度收益率截面相关性接近于0。从因子表现角度来看,相比较于大资金买入,大资金卖出似乎并没有对于股价未来走势有明显的预测效果。
下图展示全市场范围内三个因子中性化之后的多空收益与分组收益情况:
下图展示中证500成分中三个因子中性化之后的多空收益与分组收益情况:
下图展示沪深300成分中三个因子中性化之后的多空收益与分组收益情况:
自2014年以来,与大单成交金额占比因子正交后,大买成交金额占比因子依然有非常好的多空收益表现,整体的单调性也比较明显。与之对应,大卖成交金额占比多空净值几乎为0,因子分组收益几乎没有区分度。
1.2
进一步拆分后的大买与大卖成交金额占比因子
我们将逐笔成交数据根据所参与买卖单是否为大单进行进一步的拆分,构建以下因子:
剔除大卖的大买成交金额占比:买单由大单参与而卖单由非大单参与的成交金额占当天成交额比例。
剔除大买的大卖成交金额占比:卖单由大单参与而买单由非大单参与的成交金额占当天成交额比例。
大买、大卖成交金额占比:买单与买单均为大单所参与的成交金额占当天成交额比例。
因子截面表现如下表:
从截面选股效果来看,当同时由大买单与大卖单促成的成交额占比较高时,有显著的正向选股效果,而当大卖单与小额订单促成成交额占比较高时有较好的负向选股效果,大买单与小额单促成成交占比较高时,选股效果并不明显。
下图展示全市场范围内三个因子中性化之后的多空收益与分组收益情况:
下图展示中证500成分中三个因子中性化之后的多空收益与分组收益情况:
下图展示沪深300成分中三个因子中性化之后的多空收益与分组收益情况:
从多空收益情况与分组收益情况也可以看出,剔除大额卖单参与的大单成交后,大买成交占比因子表现被削弱,而剔除大额买单参与的大单成交后,大卖成交占比因子有显著的负向选股效果。这说明无论其对手方是否为大资金,有大资金方买入的股票在未来一个月内会有相对于市场的正向超额收益。而对应大资金卖出的股票,只有当对手方不是大资金时,该股票在未来一个月内才会大概率有相对于市场的负向超额收益。
上表为所有大单因子的之间的截面相关性,我们可以从中发现以下特征:
大买成交金额占比因子与大买、大卖成交金额占比因子相关性,显著高于大卖成交金额占比因子。分别与大单因子正交后,相关性差异更加显著。这一定程度说明大额买单与大额卖单共同促成成交的概率较高,相比较而言,大额卖单对手方为小额订单的概率会更高。
由上表不同因子构建的逐笔成交筛选条件下,日成交金额占全天成交金额比例分布可以看出,相比较剔除大卖的大买成交金额占比,剔除大买的大卖成交金额占比保留成交信息更多,也以从另一个侧面说明上述观点。
剔除大买的大卖成交金额占比因子与正交大买成交金额占比有很强的负相关性,与剔除大卖的大买成交金额占比因子相关性极低。这似乎表示剔除大买的大卖成交金额占比因子有效的来源可能与正交大买成交金额占比相同。
1.3
大单因子对传统指数增强组合多头表现
通过上文分析,我们得到大买成交金额占比因子,剔除大买的大卖成交金额占比因子,大买、大卖成交金额占比因子以及正交大买成交金额占比因子是我们发现的有较强选股能力因子。我们尝试将这些因子加入常用的市值、估值、盈利、换手等九个风格因子当中构建中证500与沪深300增强因子组合,考察其复合因子IC情况如下表:
从复合因子IC角度来看,正交大买成交金额占比与剔除大买的大卖成交金额占比无论整体IC还是多头IC均有更加优异的表现。而在中证500成分中,叠加剔除大买的大卖成交金额占比因子多头表现更优,在沪深300成分中,正交大买成交金额占比因子整体表现更强。
筛选各因子组合中,预期收益最大50个股票构建等权的最大预期收益组合,其相对于指数的分年度超额收益情况如下表:
与复合因子IC情况相同,对于500增强组合而言,叠加剔除大买的大卖成交金额占比因子所构建的组合表现最为强势,无论是区间收益率,还是月均超额、月均胜率角度,自2016年开始均可以稳健战胜指数,同时也稳定的强于原始的9因子组合。
对于300增强组合而言,叠加正交大买成交金额占比因子所构建的组合表现最为强势。对应沪深300增强组合分年度表现如下表:
相比较500增强,大单因子在沪深300当中的表现,无论从超额收益,月均超额均值与月胜率等维度上看,都有很大程度削弱,尤其与9因子组合相比提升更加不明显。仅从多头端表现来说,大单因子对于组合在300当中的贡献没有500中明显。
2
基于大单信息的逐笔交易过滤重构K线因子
3.1
基于大单信息的逐笔信息过滤
由上文中逐笔大单因子的构建,我们可以看出,相比较于没有大额买单或者大额卖单所参与的成交,有大额买单或者大额卖单所参与的成交似乎对于市场有更强的影响。
作为我们最常用的日内价量统计指标,分钟K线本质上也可以被看作是过去一分钟当中所有逐笔成交信息的一个统计指标。结合不同逐笔信息对市场影响不同这一现象,我们尝试用过滤后的逐笔成交信息重新构建分钟K线,然后再用重构后的K线进行因子构建,比较原始K线所构建因子,因子表现是否会有所提升。
利用上述重构的思想,我们选取上文中因子表现效果较好的0倍标准差参数,分别保留大买和大卖订单参与成交,剔除大买的大卖订单参与成交,大买订单参与成交以及大买或大卖订单参与成交四种成交过滤模式,最后构建四组重构的K线进行基于K线的因子构建。
从因子构建的逻辑出发,我们对以下三个基于分钟K线的高频因子进行重构,即
平均单笔流出金额占比:
其中, Amti代表第i根K线成交额, TrdNumi代表第i根K线成交笔数,而 Iri<0则代表第i根K线是否下跌。该因子希望可以刻画下跌时段的多空强度相对于全天所有时段的比例情况。
大单资金净流入率:
大单推动涨幅:
在这里我们进一步定义了大单K线的概念,即I{ri<0,i∈IdxSet}表示该K线是否为全天所有K线当中,平均每笔成交额最大的前10%的K线。
对于平均单笔流出金额占比因子而言,过滤掉部分小单成交信息有助于其规避部分小单成交对分钟K线涨跌判断的干扰。对于大单分钟K线的确认而言,通过订单层面对于成交进行先期的过滤更可以提升其大单定义的精度。
2.2
重构K线因子的截面选股效果
考察不同筛选方式下的重构后三个因子截面选股效果,如下表:
由上表可见,相比较用原始K线所构建的因子,只有利用保留了大买或大卖订单参与这种过滤方式重构K线所构建的三个因子有明显的效果提升,剩下过滤方式构建因子截面选股效果均有所减弱。
这可能是由两方面原因造成,首先,相比较其它过滤方式,保留了大买或大卖订单参与的成交这种方式可以最大程度的保留当天的成交信息。如表6所示,该方式相比较大买、大卖订单参与这种过滤方式,平均多保留了30%的成交信息。其次,保留大买订单参与或者剔除大买的大卖订单参与在剔除了更多成交信息同时,也让所保留信息带有一定的正向或负向选股效果,而这种效果有可能与基于分钟K线的因子构建模式冲突,从而对于该因子最终的选股效果有进一步的干扰。
进一步考察大买或大卖订单参与重构方式在中证500与沪深300中选股效果如下表:
由上表可见,K线重构方法在中证500中对于三个因子选过效果提升较为明显,并且无论在中证500还是全市场范围内,都会对于单因子多头选股效果有进一步的加强。
由于原始K线因子在沪深300成分中选股效果本身并不理想,对应重构后对于原始因子的效果提升也不显著。
2.3
重构K线因子中证500增强组合多头表现
基于上文所述重构因子的单因子表现情况,我们考虑将重构后因子加入九因子当中,构建中证500增强组合,其表现情况如下表:
对比重构K线因子与原始K线因子的复合因子IC情况,重构K线因子的整体复合因子IC均有一定程度的提升。而从多头端来看,平均单笔流出金额占比因子与大单资金净流入因子改善明显,大单推动涨幅因子多头端却略有削弱。
从多头组合收益来看,用重构K线方法构建的平均单笔流出金额占比因子与大单资金净流入因子相较于原始K线因子有显著提升,尤其最近两年提升较为明显。而大单推动涨幅因子提升则不太稳定。
2.4
K线因子与逐笔大单因子的结合
从上文描述中,我们挖掘到剔除大买的大卖成交金额占比因子与正交大买成交金额占比因子是表现较好的两个大单因子。对应以大买或大卖订单参与方式对于分钟K线进行重构,重构后K线所计算的平均单笔流出金额占比,大单资金净流入率与大单推动涨幅三个因子,其因子表现相较于利用原始K线计算的这三个高频因子更佳。
由于大单因子有更强的截面选股效果,在这里我们将K线因子分别与两个大单因子正交,考察其剥离大单因子影响后的选股效果,以及不同K线因子与大单因子的相关性情况。具体情况如下表:
由于所选大单因子间有较高相关性,同一因子分别与这两个因子正交后效果差异很小。从正交后表现来看,原始K线因子截面选股效果更佳明显。重构K线因子与大单因子有更高的相关性,正交后将大单影响剥离,重构因子表现相对下降,也侧面说明重构K线相对原始K线信息增益来自于大单特性。
考察利用9因子叠加不同大单因子与K线因子构建500增强组合,表现如下表:
从复合因子IC角度来看,无论是整体IC情况还是多头端IC情况,重构K线叠加大单效果相比较原始K线均有一定程度降低,某种意义上来说重构方法与大单因子相对较高的线性相关性一定程度影响了因子叠加效果。
从两个大单因子分别叠加K线因子情况来看,正交大买成交金额占比因子在叠加K线因子后表现提升更为显著。从复合因子IC多头端来看,正交大买成交金额占比因子叠加平均单笔流出金额占比因子后,在所有多头组合中表现最为优异。
3
总结
我们往往希望以大买成交金额占比因子代表大资金买入意愿,大卖成交金额占比代表大资金卖出意愿。大资金往往具有信息优势,我们希望通过大买、大卖金额成交占比指标,捕捉大资金买卖行为,对股票截面收益进行预测。从因子有效性上来看,这种方法的确可以一定程度获取有效的市场预测信息。
这篇报告我们更多依然以构建传统月频选股因子为目标,但我们如果观察两个表现较好的大单因子:剔除大买的大卖成交金额占比与正交大买成交金额占比因子,对于月中不同区间内收益的预测效果,如下表:
因子值对于区间收益的预测能力随时间推移而下降,对于10个交易日之后的区间收益,预测能力下降显著。因此如何将大单指标应用于短周期策略当中,尤其是时间序列相关策略,是未来重要的研究方向。
对于高频数据进行某种处理,然后重新构建低频技术面指标是海外高频交易机构常用的一种指标构建方法。这里利用大单的选股效用进行了重构尝试,未来也会进一步尝试不同的过滤参数对于所重构指标的影响。更进一步的,也会从原理和表现两方面进一步研究还有哪些过滤方法值得尝试,哪些高频数据可以用来作为重构的基础数据,以及哪些常用低频指标可以利用重构的方式提升其效果。
4
风险提示
市场系统性风险、模型误设风险、有效因子变动风险。
联系人:余浩淼 021-23219883