“海量”专题(160)——如何利用高频因子的空头效应?
新浪财经
来源:海通量化团队
在前期报告中,我们从交易逻辑出发,使用分钟数据构建了一系列高频因子。这些因子多空收益显著,且稳定性高;但它们普遍呈现多头效应弱、空头效应强的特征。直接把这些因子加入到收益率预测模型中,并不一定能改善指数增强组合的收益表现。本文梳理了几种可以利用高频因子空头效应的方法,并对其收益表现进行了回测,以供投资者参考。
1
高频因子的特征
高频因子的计算方法相对统一,即根据每日日内信息计算得到指标,然后取N日均值或累计值作为因子值。在构建月度因子时,N通常取20。
下表展示了月度高频因子全市场选股的收益表现(因子具体构建方式参见前期报告《高频因子在不同周期和域下的表现及影响因素分析》),时间区间为2013年初至2020年1月底。表中多头收益是指,因子得分最高的10%个股等权组合相对于全市场等权组合的超额收益;空头收益是指全市场等权组合与因子得分最低的10%个股等权组合收益之差;多空收益是多头收益与空头收益之和。
结果显示,高频因子选股效果显著,原始因子月均多空收益均在1%以上。但高频因子整体呈现多头效应弱,空头效应强的特征。剔除风格(市值、非线性市值)、技术因子(反转、换手率、波动率)后,绝大部分高频因子的多头月均超额均低于0.5%;而量价相关性、收盘前成交委托相关性、下行波动占比因子的多头效应甚至不再显著。
此外,剔除行业后,高频因子的稳定性有所提升。以尾盘成交占比因子为例,正交行业前,该因子多头组合月均超额1.14%,月胜率81.2%,信息比2.04;剔除行业因素后,因子多头超额收益虽有所下降,但信息比提升至2.19,同时月胜率增加至84.7%,表明因子稳定性提升。
高频因子多头效应偏弱,可能导致的一个直接结果是,在指数增强策略中引入高频因子,对策略收益提升较小。下表展示了加入高频因子对沪深300增强策略超额收益表现的影响。从中可见:
加入多头表现好的尾盘成交占比因子,对300增强超额收益提升明显。年化超额由14.9%提升至16.5%,提升幅度达1.6%;同时最大回撤和波动率降低,因此信息比和收益回撤比均出现明显提升。而其他因子由于多头效应偏弱,加入至模型中对超额收益信息比和收益回撤比的提升较小。
大部分高频因子正交行业后,对增强策略超额收益的提升更为明显;如,下行波动占比、尾盘成交占比因子。这主要是由于剔除行业因素可以提升高频因子在时间序列上的稳定性,从而增加因子收益和个股收益预测的精度。
总结来看,高频因子整体呈现多头效应弱、空头效应强的特征;因此,大部分高频因子加入到指数增强策略中,对超额收益的影响较小。此外,剔除行业因素后,高频因子的稳定性会增加,建议在使用高频因子前对行业进行正交处理。在测试的几个高频因子中,尾盘成交占比因子的多头效应最高,月均超额1%左右,因此加入该因子可明显提升沪深300增强策略的超额收益表现。
2
引入高频因子空头信息的方法梳理
如前文所述,高频因子多头效应普遍偏弱,直接作为因子引入指数增强模型对策略提升效果较小。特别是,在已经加入了表现较好的尾盘成交占比因子后,再加入其他高频因子,甚至会拉低策略收益表现。
如下表所示,加入尾盘成交占比因子后的模型(下简称基准模型)年化超额16.5%,信息比2.92。若在该模型中再加入其他高频因子,则超额收益、信息比、胜率均略有下降。这可能是由于这些因子多头效应弱(剔除尾盘成交占比因子后多头超额不再显著),加入收益率预测模型可能会对模型多头部分的排序造成负向扰动,从而对指数增强策略产生不利影响。
但这些高频因子空头效应强,即使在剔除了尾盘成交占比因子后,仍然具有非常显著的空头效应。特别是量价相关性、改进反转和大单推动涨幅,这3个因子的空头组合相对于市场组合(全市场等权组合)月均跑输幅度均在0.7%以上,收益低于市场组合的月度占比在75%以上。
虽然把这些高频因子直接加入模型中,增强组合的收益不增反降;但这些因子空头效应稳定,直接摒弃较为可惜。那么如何利用这种空头效应强、多头效应弱的因子呢?我们从构建指数增强组合的四个环节:样本清洗、个股收益率预测、风险控制、组合强化出发,对可以尝试的方法进行了简单梳理。
(1) 选股空间清洗,即事前剔除。在确定构建指数增强组合的样本空间时,直接将因子的空头部分个股剔除,然后在剩余的股票集中构建组合。
(2) 个股收益率预测。在收益率预测模块,以示性变量的形式标记因子的空头个股,并基于该示性变量因子的历史溢价预测其未来溢价。
(3) 风险控制。在风险控制模块,强制将因子空头部分个股的权重限制为0;或者对组合在因子空头组合上的暴露进行限制。
(4) 组合强化,即事后剔除。在基于原模型构建出增强组合后,剔除其中属于高频因子空头部分的个股。
下文我们将对这4种利用高频因子空头效应的方法进行回测。需要注意的是,这4种方法都是以因子空头组合为基础;即在运用这些方法之前,我们须预先设定一个阈值筛选因子空头个股。例如,以5%为阈值,将全市场因子得分最低的5%个股定义为空头个股。然后再在构建增强策略的上述4个环节,将个股属于因子空头的信息引入模型之中。
3
引入高频因子空头信息对指数增强组合的影响
如前所述,量价相关性、改进反转和大单推动涨幅,这3个因子剔除尾盘成交占比因子后的空头效应相对较强,因此本章主要以这3个因子为例,考察引入高频因子空头信息对指数增强策略的影响。这3个因子与股票收益均呈现显著负相关关系,即量价相关性越高、改进反转越高、大单推动涨幅越高,个股未来收益表现越差。
下文对比的基准模型是,包含风格、低频技术因子、基本面因子、预期基本面因子和尾盘成交占比因子的沪深300增强模型。增强模型为全市场优化模型,即选股范围是剔除ST股、上市3个月以内的新股、停牌股以外剩余的所有A股。
3.1
事前剔除
对增强组合的影响
下表展示了剔除样本空间高频因子得分最低的5%个股后,沪深300增强策略的超额收益表现。对于本章考察的3个高频因子(量价相关性、改进反转和大单推动涨幅),个股指标值越大,因子得分越低。
结果显示,相对于基准模型,利用高频因子空头进行事前剔除的增强组合超额收益更高。其中,大单推动涨幅因子对超额收益的提升最为明显,年化超额由16.5%提升至17.5%,相应的信息比和收益回撤比均有所提升。
需要注意的是,高频因子的空头组合可能包含标的指数成分股;若我们将成分股剔除,则可能面临优化组合相对于实际基准的偏离高于设定的阈值,导致风险加大。例如量价相关性因子,利用该因子剔除空头个股会导致最大回撤大幅增加,由4%以下增加至7.8%。
因此,为减小偏离,我们可以仅剔除标的指数成分股以外的空头个股。按照这种方式清洗样本空间,得到的沪深300增强组合超额收益表现如下表所示。从中可见,仅剔除成分股以外空头个股的方法,其最大回撤和跟踪误差明显低于剔除所有空头个股的方法。
空头阈值敏感性分析
前文以5%为阈值定义高频因子空头个股,本节我们将对空头阈值进行敏感性分析。
下图展示了在不同阈值下,事前剔除对沪深300增强策略年化超额收益的影响。从中可见,在一定范围内增加阈值,即增加剔除的个股数,可以提升策略收益。但超过一定范围继续增加阈值将会对策略产生负向影响。例如,若以20%为阈值,剔除高频因子得分最低的20%个股,则策略超额收益将大幅降低,由16.5%降至15%以下。
事前剔除的空头个股数不宜过多,这可能是由于在构建收益预测模型时,横截面样本量减少将会降低已存因子的稳定性,对模型预测能力产生不利影响。以大单推动涨幅因子为例,下表展示了剔除该因子空头个股(20%)之前和之后,对原收益预测模型已存因子——反转、波动率和换手率因子截面溢价的影响。
结果显示,剔除20%的空头个股之后,截面溢价和溢价胜率均大幅降低。特别是反转因子,月胜率由77%降至67%。月胜率降低意味着因子选股方向发生变化的可能性大,对于基于历史数据预测未来溢价的模型而言,这种选股方向的频繁变动会对模型预测能力产生不利影响。
总结来看,利用高频因子空头组合进行事前剔除,可以提升沪深300增强组合超额收益。其中,以大单推动涨幅因子的提升最为明显,年化超额由16.5%提升至17.5%。需要注意的是,若剔除所有空头个股的方式会导致组合相对于基准的偏离过大,则可以采用仅剔除标的指数成分股以外空头个股的方式来减小偏离。此外,定义空头个股的阈值不宜过大,否则将会对已存因子的预测能力产生负向影响,反而会拖累策略表现。
3.2
构建示性变量因子
在收益率预测模块,由于高频因子多头效应弱,因此直接以因子的形式加入高频因子,可能会对模型多头部分的排序造成负向扰动,对指数增强策略产生不利影响。基于高频因子的空头组合构建示性变量因子,一方面可以利用高频因子较强的空头效应,另一方面也可以减小因子对多头组合造成的不利影响。
对增强组合的影响
下表展示了加入高频示性变量因子对沪深300增强组合超额收益的影响。示性变量因子的构建方式是,若个股属于高频因子得分最低的5%个股,则因子值为1;否则为0。
结果显示,引入高频示性变量因子可以提升增强组合超额收益。但量价相关性、改进反转因子的稳定性相对较低,加入这两个示性变量因子后,增强组合的跟踪误差也有所增加,因此信息比并无明显变化。但加入大单推动涨幅示性变量因子,可以在不明显增加风险的前提下,提升组合收益,因此信息比和收益回撤比均明显增加。
那为什么加入大单推动涨幅因子可明显提升增强组合收益风险比,而量价相关性、改进反转因子则对组合无明显影响呢?这可能是由于在沪深300指数成分股内,大单推动涨幅因子可为多头提供更多增量信息,对多头部分个股的收益预测精度提升更为明显。
计算上述4个收益率预测模型在沪深300指数成分股多头部分的预测精度,结果如下表所示。其中,预测精度用IC表示,即个股预测收益和实际收益的相关系数。多头预测精度是指,以沪深300指数成分股中预测收益最高的30%股票(多头)为样本池,计算这部分个股预测收益和实际收益的相关系数。IC越高,表明模型预测能力越强。
结果显示,在基准模型中加入量价相关性和改进反转因子并没有提升沪深300指数成分股的多头IC,即模型在多头部分的预测能力没有得到改善。而加入大单推动涨幅因子后,多头月均IC由5.53%提升至6.01%,相应的信息比也有所增加。
由此表明,就多头而言,大单推动涨幅因子可为预测模型提供增量信息,提升收益预测精度。而另外两个因子的增量信息较为有限,对模型IC没有提升作用。这可能是导致这几个全市场空头效应显著的因子,对沪深300增强策略具有不同影响的主要原因。
空头阈值敏感性分析
下表展示了将空头定义阈值从2%增加至20%,引入大单推动涨幅示性变量因子对沪深300增强组合超额收益的影响。结果显示,随着阈值逐渐增加,即空头个股数逐渐增加,沪深300增强策略的超额收益逐渐降低。
当阈值为2%时,加入该因子对超额收益的提升最明显:年化超额由16.5%提升至18.1%,提升幅度达1.6%;相应的信息比由2.92提升至3.13,收益回撤比由4.64提升至5.43。而阈值增加至10%时,组合超额收益不增反降。表明在定义示性变量因子时,空头组合的设定阈值不宜过高。这可能是由于,阈值越高,空头组合包含的个股数越多,空头效应越弱。
实际上,我们可以简单对比不同阈值下,因子空头组合相对于基准的超额收益。以阈值为5%为例,我们可以将大单推动涨幅因子得分最低的5%个股中,属于沪深300指数成分股的股票挑选出来,构建等权组合(或成分股权重加权组合),并统计该组合相对于300成分股等权组合(或沪深300指数)的月度超额收益,结果如下图所示。
从中可见,阈值不高于5%时,大单推动涨幅因子空头组合相对于基准存在非常明显的负向超额收益,月均负向超额幅度在1.2%以上。而阈值增加至10%时,月均超额大幅降低,降至0.5%以下。即对于大单推动涨幅因子而言,5%以上的空头股票相对于指数的超额收益并不是特别突出。因此若要保有高频因子空头效应的增量信息,定义空头组合的阈值不宜设定得过高。
总结来看,在收益率预测模块,以示性变量因子的形式引入高频因子空头个股信息,一方面可以利用高频因子较强的空头效应,另一方面也可以减小因子对模型多头造成的不利影响,因此可以提升沪深300增强策略的超额收益表现。其中,大单推动涨幅因子对组合超额收益的提升最为明显,这可能是由于引入该因子可明显提升沪深300指数成分股的多头预测精度;而引入其余两个因子并不能达到这种效果。此外,在定义示性变量因子时,空头组合的阈值不宜设定过高,过高的阈值会稀释空头效应,降低增量信息。
3.3
约束空头个股/组合偏离
在风险控制模块利用高频因子的空头效应可以考虑如下两种方式:一是要求因子空头个股权重为0;二是要求优化组合在因子空头组合上的偏离不高于某个阈值。由于量价相关性和改进反转因子对沪深300指数成分股的多头IC没有明显提升效果,因此下文仅对大单推动涨幅因子加入至沪深300增强组合中的影响进行分析。
对于第一种方法,若强制要求所有空头个股的权重都为0,则在某些时段由于约束条件冲突无法求得最优解。若要保证求得最优解,则可以放松约束,仅要求成分股以外的空头个股权重为0。需要注意的是,由于增强组合绝大部分的个股都会在标的指数成分股内,因此仅对成分股外的空头进行约束会导致有效信息大打折扣。从结果(下表)来看,以这种形式加入空头信息对收益的提升明显不如前面两节的方法。
应用第二种方法也会遇到类似问题。若限制得过于严格,例如要求在高频因子空头组合上的暴露为0,则会导致约束冲突,可能无法求得最优解。而放松限制,例如要求在空头组合上的暴露等于基准暴露,或等于基准暴露的1/2,则收益提升幅度不明显。
总结来看,以设定约束的形式引入高频因子空头信息灵活度低;同时,受风险控制模型其他约束条件的影响,信息利用度也低,因此对收益影响小。
3.4
事后剔除
在根据基准模型获取增强组合后,可以将其中的高频因子空头个股剔除(下简称事后剔除),以对组合做进一步强化。下表展示了在不同阈值下,剔除原增强组合中的大单推动涨幅因子空头个股,对沪深300增强组合超额收益的影响。
结果显示,事后剔除可以明显提升增强组合超额收益;剔除的空头个股越多,组合超额收益越高。剔除10%的空头个股,年化超额可由16.55%提升至18.25%。但需要注意的是,事后剔除无法控制风险,可能导致最终的组合相对于基准在某些风险因子上的偏离大幅增加,因此这种方法对风险的提升也高于其他三种方法。从收益风险比角度来看,空头组合阈值为5%时,组合收益表现最优。
3.5
小结
本章我们主要对4种引入高频因子空头信息的方法进行了回测。总结来看,若因子空头能为收益率预测模型的多头部分提供增量信息,则利用因子空头进行事前剔除、构建示性变量因子或者进行事后剔除,都可以提升增强组合的超额收益。而在风险控制模型,通过对空头组合暴露设置限制的方法灵活度低,可能无法获得最优解;同时受风险控制模型其他约束条件的影响,对信息的利用度低,因此对收益的提升幅度明显小于其他3种方式。
在我们探讨的4种方式中,构建示性变量因子的形式灵活度最高,以这种方式引入因子空头个股对原模型影响小,不会对策略风险造成较大影响。需要注意的是,在定义示性变量因子时,定义空头个股的阈值不宜过高,过高的阈值会稀释空头效应,减少增量信息。
对于事前剔除方式,若我们剔除的个股包含标的指数成分股,则会对约束基准造成影响,可能导致优化组合相对于实际基准的偏离高于设定的阈值,增加相对回撤。若出现这种情况,可以采用仅剔除标的指数成分股以外空头个股的方式来减小偏离。
对于事后剔除方式,对收益的提升最为明显;且剔除的个股越多,收益提升幅度越大。但这种方式无法控制风险,可能导致最终的组合相对于基准在某些风险因子上的偏离大幅增加。因此以这种方式引入高频因子空头组合对策略相对最大回撤和跟踪误差的影响也高于其他方式。具体每种方法的简介和优缺点如下表所示。
此外需要注意的是,本章我们分析的都是引入高频因子空头组合对沪深300增强策略的影响,没有对500增强策略进行分析。这主要是由于许多高频因子直接加入收益率预测模型即可提升500增强策略的收益表现,并不需要单独提取因子的空头效应。若发现一些因子直接加入收益率预测模型会扰乱多头秩序,降低策略收益表现;但它剔除已存因子后确实存在非常明显的空头效应,则同样可以尝试本章提及的几种方式,仅引入因子的空头效应。
4
全文总结
本文主要对利用高频因子空头效应的方法进行了梳理总结。
对于沪深300增强策略而言,有一些多头效应弱的因子,若直接以新因子的形式引入收益率预测模型,则会对模型多头部分的排序造成负向扰动,从而对指数增强策略产生不利影响。在这种情况下,若因子空头效应显著,且存在增量信息,则可以尝试以如下几种方式,仅引入高频因子的空头效应:事前剔除、构建示性变量因子、约束空头组合偏离、事后剔除。
这4种方法都是以因子空头组合为基础;即在运用这些方法之前,我们须预先设定一个阈值筛选因子空头个股。例如,以5%为阈值,将全市场因子得分最低的5%个股定义为空头个股。然后再在构建增强策略的各个环节,将个股属于因子空头的信息引入模型之中。
事前剔除,是指利用空头个股清洗样本空间。即在构建指数增强模型之前,直接将样本空间的空头个股剔除,仅在剩余股票集中构建模型。这种方法简单直接;需要注意的是,若我们将标的指数成分股中的空头个股剔除了,则可能扭曲基准,导致实际偏离大。因此我们建议在剔除时,仅剔除标的指数成分股以外的空头个股。此外,定义空头个股的阈值不宜过大,否则将会对已存因子的预测能力产生负向影响,反而会拖累策略表现。
构建示性变量因子,是指在收益预测模型中加入按照如下方式构建的因子:高频因子空头个股因子值为1,其余个股因子值为0。这种方法灵活度高,对已存因子影响小,可以在不明显增加风险的情况下提升组合收益。需要注意的是,在定义示性变量因子时,空头组合的阈值不宜设定过高,过高的阈值会稀释空头效应,减少增量信息。
约束空头组合偏离,是指在风险控制模型中对空头组合的暴露进行限定。这种方法灵活度低,可能面临无法求得最优解的情况。同时受风险控制模型其他约束条件的影响,这种方法对信息的利用度低,因此对收益的提升幅度明显小于其他3种方法。
事后剔除,是指获取增强组合后,将其中的高频因子空头个股剔除,以对组合做进一步强化。这种方法对收益的提升最明显;但由于无法控制相对基准的偏离,因此对风险的提升也高于其他三种方法。
5
风险提示
模型误设风险、流动性风险。
联系人:罗蕾 021-23219984