新浪财经

【国盛量化】多因子系列之十:行业内选股初探

新浪财经

关注

来源:留富兵法

报告摘要

随着全市场基本面alpha增量信息的挖掘变得越来越困难,行业内选股模型开始备受关注。一方面,分行业建模能够更方便的加入行业特质因子,另一方面,由于不同行业特性不同,分行业建模预测准确度可能更高。基于上述两个原因,我们尝试构建行业内选股模型,期望该方法能够对原有的全市场模型有所改进。

我们采用测试和逻辑相结合的方法来寻找行业内适用的因子。行业内适用因子的寻找有很多不同的方法,但我们在研究过程中发现基于纯测试的方法和基于纯逻辑的方法都存在一定的问题,因此我们采用了测试和逻辑相结合的方法。由于行业成份股较少,缺乏大样本的显著性,对于每一个因子,我们都尝试寻找到其合理的行业逻辑,以降低过拟合的概率。

不同行业行业内建模的表现有所差别。银行和证券行业行业内模型要显著好于全市场建模,而其他行业,二者差别较小,部分行业行业内建模较优,而部分行业全市场建模较优。行业内建模与全市场建模的预测相关性并不是很高,将二者结合后,基本在每个行业,行业内模型都要优于原来的全市场模型。

300增强组合有所提升,而500增强组合提升不明显。我们基于结合后的预测分别构建了两个增强组合并进行了归因,发现300增强的主要超额收益的贡献来自于银行和券商两个行业,其他行业的增量有限。而对于500增强模型,提升不明显。这可能是由于500的权重行业例如医药、电子等,我们并没有找到很多的特质因子,因此增量信息并不多,另一方面,500的行业权重较为分散,如果想要有显著的提升,可能需要对大部分行业都要有比较明显的提升。

对未来行业内选股研究的展望。本文是我们对行业内选股的初步探索,我们采用传统多因子的方法,发现对原有组合的提升较为有限,只有银行券商有较明显的提升效果,这与目前市场上的研究结论较为一致。对于未来行业内选股的研究,我们认为有三点改进方向,首先,应将精力集中在新信息的寻找,而非原有因子分域逻辑的研究。其次,对于因子的寻找可以抛弃传统多因子大样本的思路,从细分样本的特质逻辑出发。最后,并不是所有行业使用行业内建模都一定会有提升,我们需要针对具体的策略对一些行业进行有针对性的建模。

一、综述

随着全市场基本面alpha增量信息的挖掘变得越来越困难,行业内选股模型开始备受关注。一方面是因为有很多因子只在某一行业,或者某些特定行业有效,而全市场建模无法方便的加入这些信息。另一方面,由于不同行业的属性不同,细分行业建模可能比全市场建模预测的更加准确。基于上述两个原因,我们尝试构建行业内选股模型,期望该方法能够对原有的全市场模型有所改进。

目前市场上对行业内选股的研究已经有很多,我们将其分为三类:

第一类是纯测试的方法。给定一个标准,例如IC或者ICIR的阈值,然后滚动筛选出每个行业满足该筛选标准的因子,分行业进行预测,最后合起来构建组合。通过回测,我们发现此方法最终的策略表现相对于原来的全市场策略并没有增强,即使是全样本筛选因子而不是滚动筛选,在可能过拟合的情况下,该方法也并没有显著的好于原策略。究其原因,我们认为有两点:

1)不同行业应该有不同的筛选标准。由于不同行业的股票数量相差较大,对不同行业有相同预测能力的因子,在股票数量少的行业,其稳定性即ICIR也会较低。过严的筛选标准会使得某些行业没有有效因子,而过松的筛选标准会使得某些行业加入过多的噪声。而对不同行业使用不同筛选标准,则会增加大量的参数而导致模型容易过拟合。

2)行业内股票数量过少,尽管筛选出来的因子可能更加符合行业特征,使得预测的偏差更小,但是由于行业样本少,预测的方差会增大。考虑一种特殊情况,假设某行业股票收益的预测函数与全市场股票完全一致。那么行业内选股是用该行业(50只股票)的历史数据进行训练来预测该行业股票收益,而全市场模型是用3000只股票的历史数据来进行预测,显然后者的预测会更加准确。在实验中我们也发现像综合行业的样本内选股收益总是要弱于全市场选股的。

第二类是纯逻辑的方法。即先有行业的逻辑,再根据逻辑构造因子。这个方法是最为理想的方法,我们也尝试通过行业研究的逻辑来寻找因子,但遇到了一些困难:

1)  行业研究的精力集中在对公司业务的拆解,通过对子行业发展或者公司业务的发展的分析来预测公司未来的营收以及净利润,这种基于公司业务的逻辑较难形成选股因子。例如对于净利率和毛利率这两个因子,在每个行业都是有用的基本面指标,但如果去测试,会发现不同行业毛利率和净利率的因子表现相差巨大。行业研究和因子选股的是两种思路,不管是毛利率还是净利率,都只是研究员对公司未来盈利预测时需要考虑的变量之一,除此之外,他们更加关心的是公司业务或者所属子行业的发展,实地调研的结果等。而从因子选股的角度来说,对于基本面因子,我们是需要该变量有预测公司未来基本面的能力,从而才可能预测股票未来的收益。

2)  行业研究的逻辑较为微观,一个细分领域的可比公司可能只有不到十家,这与我们量化选股要求广度的思路相违背。

 第三类是测试和逻辑相结合的方法,即先测试每个行业每个因子的表现,然后从中找到一些行业逻辑。这类方法较为方便,但十分容易找到伪逻辑,从而陷入过拟合。例如我们在交运行业测试因子,发现资产周转率增长表现很好,在所有测试的因子中ICIR排名第一,我们认为这是由于交运行业较为重视公司的周转率,于是将该因子纳入交运行业的因子池,但这显然是靠测试得到的逻辑,有很高的过拟合的概率。因为资产周转率的提升在每个行业都代表着公司运营效率的提升,按照这个逻辑,资产周转率增长因子应该在每个行业都表现较好,但事实是只有部分行业中该因子有选股能力。因此如果我们没有找到为何资产周转率在不同行业表现不同的核心逻辑,那么我们在交运行业中就不该选入资产周转率增长这一因子。对于这类逻辑在各个行业都通用的传统财务因子,我们需要进行行业间的横向比较,从而找出因子适用的行业。

对于纯逻辑的方法,我们目前还没有找到一个有效的构建选股因子或者模型的方法。因此,在本篇报告中,我们还是使用测试和逻辑相结合的方法来构建行业内模型。那么对于这个方法,最需要注意的就是其过拟合的可能性,我们在研究中尽量避免这一问题,使得模型在样本外有较好的表现。

二、行业内因子筛选

由于行业内的样本过少,当前成分股最多的行业也只有不到300只股票,而最少的只有30只左右,在我们样本区间的早期,大部分行业成分股的样本数量都不到100只。因此在选取行业内因子时,我们必须找到因子的逻辑。

我们将因子分为两类,之所以这样分类,是因为我们认为对于这两类因子,我们寻找逻辑的方式是不同的:

1)基础因子:这类因子基本都是各行业适用的传统财务指标,全市场有效,但在不同行业的表现不同。这类因子由于已经通过全市场的验证,在大样本下证明了其有效性,且一般来说都有一个较为合理的全市场逻辑,因此不会存在过拟合的可能。对于这类因子,我们的假设是这些因子在不同行业表现不同,从而通过行业的横向比较,寻找到哪些行业更适用的逻辑,并在这些行业使用该因子。

2)特质因子:这类因子是只有某些特定行业逻辑的因子,一般来说全市场无效,只在少数几个行业有效,例如研发、商誉、经营类、杠杆类因子等。这类因子是最需要注意过拟合风险的。对于一个因子,分二十多个样本测试一遍,几乎总可能找到显著的子样本。那么对于这类因子,必须要先有逻辑,然后再进行测试。或者是该因子足够显著,能够通过多重检验。

为了避免过拟合,我们选取尽可能少的,逻辑清晰的因子作为我们的基础因子池。

下面我们分别对这些因子进行测试以及分析,以下测试中剔除了综合行业以及金融行业。

我们首先对所有因子进行异常值处理,然后分别在行业内对市值进行中性化。由于12年之前的股票数量过少,我们的样本从13年开始。不同行业的股票数量不一样,其ICIR的大小不具备可比性,对于不满足硬性标准(ICIR>0.6)的因子,我们还会综合考虑该因子在行业内的相对表现。

2.1 基础因子

在基础因子中,经过测试我们发现其中有几个因子几乎在所有行业中的有效。可以看到,这几个因子都与公司的净利润相关,这也是公司基本面最核心的因素。同时这几个指标分别代表了公司的三的方面,估值,盈利能力,以及成长性。

我们发现餐饮旅游行业,这些最基本的因子都没有效果。我们认为可能有两点原因。第一是餐饮旅游行业的股票数量过少,截止目前只有30只左右,因子中包含的噪声较多。同时其子行业又分旅行社、景区、酒店、餐饮,成分股之间差异较大,题材频出,因此市场表现可能会与基本面有较大的偏离。对于餐饮旅游行业,我们将不进行单独的行业内预测。

在农林牧渔行业,成长因子净利润增长和roe变化并没有效果。但我们测试农林牧渔行业的其他因子,会发现sue因子表现很好,这可能是由于农林牧渔行业的净利润波动性较大,单季度的净利润增长可能是由于周期性原因导致,并不代表公司过去业绩的稳定增长。因此使用sue能够帮助我们过滤掉利润波动大的公司。这一逻辑在可能在其他周期性的行业中也同样适用,我们比较了周期性行业sue与yoy_np_q的ICIR值,在周期性行业中,sue确实要稳定好于单季度净利润的增长。

除了上述四个因子之外,其他因子基本上都只在半数行业显著。对于这类因子,我们根据测试结果提出猜想,然后寻找行业的逻辑,且在有逻辑的行业使用他们。需要注意的是我们不可能找到所有表现好的行业的逻辑,一些行业因子表现较好可能刚好是随机样本造成的,其表现并不可持续。因此,我们尽可能找到一些简单直观的逻辑,并只在有逻辑的行业中使用他们。

inv_turnover_q_delta:Alan等(2014)研究了存货周转率在零售行业的表现,他们认为存货周转率的提升代表着企业效率的提升,其未来的营收和利润也会有所增加,而这一因子并不能被市场及时的定价。之所以在零售行业分析是因为零售行业的主要业务就是直接进行商品的买卖,其存货周转率对盈利有较大的影响。其他消费类行业例如食品饮料,家电与此有类似的逻辑。我们在这些行业测试了存货周转率因子,除了纺服行业,都有较好的表现。

acct_rcv_turnover_q_delta:应收账款周转率增长代表企业的回款速度变快,也代表着企业面对下游供应更加强势。但在许多行业中,应收账款并不是问题,例如上游资源型行业,石油石化,煤炭等,应收账款占总营收比率不到5%。而在一些行业,例如机械,建筑,应收账款比例非常高达到20%甚至30%。这是由于这些行业很多时候都是赊账进行购买。例如机械行业,对于一些零售端客户,会使用分期付款的方式进行促销,导致该行业应收账款占比较高。而对于这些行业,应收账款周转率的变化显得非常重要。我们将各行业应收账款占比与因子表现进行回归,回归系数非常显著。因此我们在较为重视应收账款的机械,建筑,电力设备,计算机行业使用该因子。

2.2 特质因子

通过参考我们前期的报告《银行行业基本面量化——选股与择时》,我们在银行行业选取了净息差和和拨备覆盖率两个因子。

估值因子是券商行业最有效的因子。由于券商行业每个月会及时的发布其上月的经营情况,我们根据最新的月报数据构造估值因子ep、bp、sp,并与使用财务报表构建的估值因子相比较。尽管IC和ICIR上与原因子没有显著差别,但是ep,sp因子的单调性变好,第一组的收益有略微提升,bp几乎没有差别。

受“预售制”的影响,房企利润表通常为历史项目的现实确认,因此利润表科目是滞后于企业当前的经营状况的,我们需要从另外两张报表来寻找地产企业当前的增长情况。

现金流量表相比利润表更能反映地产公司目前的经营状况,但是销售商品提供劳务获得的现金流增长这一指标最近几年表现一般。我们使用业绩保障系数=预收账款/营业收入TTM来作为房地产公司增长的代理指标。预收账款代表着企业当前的销售情况,而营业收入代表着过去,业绩保障系数越大,代表企业未来年度的业绩更有保障。

除此之外,对于那些并不是行业特有的逻辑,而是在测试中发现的特质因子,我们需要使用多重检验来排除过拟合的可能。尤其是一些经营类因子,或者杠杆类因子,由于其全市场并没有稳定的alpha,只是在某些行业测出来好,因此很容易得出某行业较为重视该方面的经营效率或者杠杆风险这样的伪逻辑而陷入过拟合。 

从纯测试的角度来说,我们对一个因子在所有行业内的测试结果进行多重检验,采用BHY调整,发现大部分原本在少数两三个行业中有效的因子,经过调整之后变得都不显著了。这可能是由于财务因子显著性相对于价量因子不是特别高,在多重检验下,我们通过单纯的测试得到的财务因子基本上都不能通过检验。因此通过纯测试的方法得到的因子我们需要谨慎考虑其过拟合的可能性。

2.3 汇总

三、组合构建

得到每个行业适用的指标之后,我们尝试构建行业内的选股模型。我们将因子分为估值,成长,盈利和其他四类,然后在小类中等权合成,再将大类因子用ICIR加权。由于行业中样本过少,ICIR较为不稳定,这里我们使用过去24个月的ICIR值作为权重。得到各行业内的组合之后,我们将其和全市场选股的模型进行对比。

第二节中提到餐饮旅游行业的股票过少,而且常见的因子对其也没有预测能力,因此我们不对餐饮旅游行业进行行业内预测。综合行业没有特定的行业逻辑,我们也不对其进行行业内的预测。对于银行券商行业,全市场模型几乎没有预测能力。其他行业中,建筑,国防,石油石化等行业,行业内模型是要略好于全市场模型的,但是电力设备,建材等行业,行业模型要略差于全市场模型。

由上表我们发现,即使我们按照行业的逻辑选取了因子,我们也很难做到在所有行业中都能够跑赢全市场模型。我们认为这也是做行业选股一个常见的误区,就是希望每个行业我们都能做的较好,战胜全市场模型。可能从理论上,这个结论就无法实现。在综述中我们提到,行业股票的数量是制约行业选股效果最重要的原因。尽管我们能够选取出行业适用的因子,但是由于行业样本量太少,我们的对行业内股票收益的估计仍然可能不太准确。这其实对应着机器学习中的biasvariance trade off。行业内选股减小了bias,但是增加了variance,因此最后的结果不一定比原来高bias低variance的全市场模型好。另一方面,我们在行业模型中加入的因子信息较少,这是由于很多因子没有典型的行业逻辑,例如薪酬类,分析师类因子,以及我们前一部分没有找到逻辑的财务因子。因此我们发现尽管我们有针对性的对每个行业选取了因子,还是有很多行业的行业内模型要弱于全市场模型。

从逻辑上来讲,我们认为券商,银行,地产这三个行业行业内选股模型预测的会更加准确,因为其行业逻辑与其他行业有较大差别。而综合,餐饮旅游这两个行业由于股票数量过少,且没有共同的行业内逻辑,我们使用全市场模型。对于其他行业,我们无法从逻辑出发来判定哪个模型会更好。但值得注意的是,两个模型的预测值相关度较低,平均只有0.4左右。因此对于其他行业,一个更好的方法就是将两个预测结合起来从而进一步提高模型预测的准确性。

我们分别测试两种结合预测的方法:

1)在每个行业内,将两个预测按其过去两年ICIR进行加权,如果其中一个模型过去两年无效,即ICIR为负,则使用另外一个预测,如果两个模型都无效,则等权加权。

2)不区分行业,直接用全截面过去两年的表现进行加权,其他细节与方法一一致。

尽管行业内选股模型的IC值要低于全市场选取模型,但是将二者结合之后,alpha信号的IC以及其ICIR都有显著的提高。但是对于结合方法,方法一和方法二并无显著的差别。

分行业来看,合成后的预测模型不管是从IC的角度还是从分组收益的角度,基本在所有行业都优于全市场模型。但只在少数行业有显著的提升,大部分行业提升较少,分组收益和IC都仅在1%左右。

我们用上述两个方法分别构建500增强和300增强组合,结果如下

从测试结果来看,行业内选股模型对300增强有较为显著的提升作用,但通过归因,我们发现超额收益的来源主要是银行和券商两个行业。由于全市场模型对这两个行业没有任何超额收益,行业内模型对这个行业有较为显著的提升。另一方面,银行和券商占300指数的权重较大,因此300增强模型提升较为显著。而对于500增强模型,我们发现行业内选股基本上没有任何的提升,从归因结果来看,也是一半行业变好,一半行业变差。这可能是由于500的权重行业例如医药、电子等,我们并没有找到很多的特质因子,因此增量信息并不多,另一方面,500的行业权重较为分散,如果想要有显著的提升,可能需要对大部分行业都要有比较明显的提升。

四、总结、思考与展望

如何将行业内的信息纳入进传统的多因子模型是大家一直较为关心的问题。本报告对行业内选股模型进行了初步的探索,试图寻找到行业内选股的有效解决办法。通过阅读已有的报告和结论,我们放弃了纯测试的方法。但在试图通过纯逻辑的方法去寻找有效因子时,总是会跟随着行业研究的思路把逻辑拆的越来越细,从而很难形成有效的选股因子。因此,我们最终采取了测试和逻辑相结合的方法,为了避免该方法过拟合的可能,我们将因子分为基础因子和特质因子,并用不同的方法分别去寻找他们的逻辑,从而得到了每个行业的适用因子列表。我们使用这些因子构建行业内选股模型,并与原来的全市场预测相结合,在大部分行业内,结合后的预测都略好于原本的全市场预测。最后我们构建了300和500增强组合,300增强模型有所提升,而500增强模型提升不大。其中300增强的提升主要是由于银行和券商两个行业。

本报告是我们对于行业内选股的初步尝试,得到的结论与目前市场上的认识基本一致。基于研究过程中的思考以及研究结论,我们认为行业内模型未来的研究方向如下:

1)首先,我们在研究过程中花大量的时间研究了基础类因子在不同行业的表现及其逻辑,试图对于每个行业给出有逻辑且适用的因子。但如果仅使用全市场模型已有的因子,即使正确且有逻辑的选取了每个行业有效的因子,分行业建模带来的增量信息并不多。这一方法对于行业指数增强策略有一定的意义,但如果想提升宽基指数增强策略或者全行业的主动量化策略,这一方法可能不会有显著效果。因此未来的研究应该更加集中在新因子的寻找,而不是对原有因子的分域研究。

2)其次,我们在寻找选股因子时,还是基于多因子的思路,希望找到对整个行业都有选股效果的因子,但对整个行业有意义的指标基本上都是常见的财务指标,这就导致很难寻找到新的增量信息。因此,未来的研究中,我们不一定要延续多因子大样本的思想,可以先从逻辑出发,找到细分小样本中的特质因子,这样至少能够保证该因子是有增量信息的,再想办法将该信息结合进原有模型。

3)最后,不同行业由于行业特征和行业样本不同,不一定都适合在行业内进行建模预测。因此,我们如果想使用行业内选股提高原有策略,应当针对策略的特征进行研究。例如对于500增强策略,我们可以对其进行归因分析,对贡献超额收益较少的行业以及权重较大的行业进行针对性的研究,最终的提升效果可能会更加显著。

除了以上改进方向之外,在我们的研究过程中,也发现了一些难以解决的问题:

1)  行业逻辑并不是一成不变的,在不同的时间段,行业的选股逻辑可能完全不同。即使我们找到一些有行业逻辑且有选股效果的指标,但这个指标是有适用环境的,可能只在该行业某一历史时间段有用,这样的逻辑较难结合进量化的选股模型。

2)  行业的基本面逻辑,大部分只研究指标和公司盈利的关系,而我们寻找的指标需要其有直接预测收益的能力。很多时候在寻找特质因子时,也是先基于另类数据的测试,然后给出结论,例如测试研发强度在医药行业有选股效果,我们可能会直接给出研发强度高的公司,创新能力高,未来成长性较好这种直觉得到的结论,但事实上可能研发强度的选股效果并不是由于上述的逻辑。由于行业样本少,即使是使用另类数据,在寻找特质因子时同样容易陷入过拟合的问题。因此在我们通过逻辑寻找因子时,如何建立指标与未来收益的逻辑关系有待进一步研究。

3)  在改进思路中,我们提出可以缩小样本以寻找细分领域的逻辑,但如何将大量子样本的信息结合到模型中也有待研究。

事实上,上述问题也是当前主动投资和量化投资在结合过程中面临的重要问题,在未来的报告中,我们将会进一步对这些问题进行思考,提出可行解决方案。

风险提示:以上结论均基于历史数据和统计模型的测算,如果未来市场环境发生明显改变,不排除模型失效的可能性。

本文节选自国盛证券研究所已于2020年2月18日发布的报告《量化专题报告-多因子系列之十:行业内选股初探》,具体内容请详见相关报告。

刘富兵

S0680518030007

liufubing@gszq.com

丁一凡

加载中...