新浪财经

“海量”专题(137)——上市公司关系网因子

新浪财经

关注

来源:海通量化团队

1

关系网因子的基本逻辑

在金融科技(Fintech)和数据挖掘研究系列报告——《知识图谱的构建与应用》中,我们介绍了知识图谱在金融投资领域的应用,其中包括构建图网络因子。这类因子的基本逻辑是,上市公司在股票市场中并非独立存在,而是通过产业链上下游、债务、股权等多种关系相互关联,共同构建了股票市场的复杂网络。下图即为以工商银行为中心的上市公司关系网示例。

基于这样一个逻辑,我们可以采用某种关联关系将上市公司连成一张关系网,并通过图论的算法提取网络特征,从中挖掘不同于传统因子的信息。

例如,我们在《量化研究新思维》系列报告中推荐过的《Logistics of Supply Chain Alpha》(德银,2015)一文,就采用社交网络和网络搜索中的启发式算法,将供应链网络作为一个整体进行分析。视其中的企业为网络的节点,企业间的供应链关系为有向边,从而将非结构化的数据转换为图网络,并构建了以下三大类因子。

文中的检验表明,上述三类因子在控制了行业和市值后,依然具备显著的Alpha。其中,业绩动量因子、供应商分散度因子的月度平均多空收益均在0.60%左右,年化值可达7.8%,与PE、ROE 等传统因子的表现十分接近。

同时,由于这类因子包含上市公司的关联结构,故能提供财报和量价因子以外的信息。而特征提取方式的不同,也保证了不同网络因子之间的低相关。以上这些优点,均是对当前量化研究的有益补充。

2

A股关系网因子

获取上市公司关联关系的基础多为非结构化的另类数据,如,应收账款、股权等。但根据Wind等现有的数据源,此类数据在A股市场上的覆盖率不足40%,很难构建适用于所有股票的因子,较为适合设计一些事件驱动类策略。因此,本文采用了覆盖度较高、且易于实现结构化的股价相关性和主营业务收入相似度,构建关系网因子,并验证它们在A股市场上的效果。

本文的回测区间为2010年1月至2019年5月,换仓频率为月度,样本空间为剔除ST、停牌、涨停以及上市不满6个月的股票后的剩余部分。在对关系网因子进行正交处理时,需要剔除行业、市值、非线性市值、换手、反转、特异度、非流动性、盈利、成长和估值的影响。其中,行业因子使用中信一级行业分类。

2.1

股价相关性网络

2.1.1

网络构建与因子定义

计算全部A股两两之间过去N个交易日的收益率相关系数,保留绝对值在某一阈值之上的结果,作为上市公司互相关联的边,构建股价相关性网络。下图给出了剔除低相关性的边后,A 公司与B、C、D 公司之间的关系。

参考德银报告定义供应链因子的方式,我们对任意一个公司u计算如下三类因子。

  • 度:股价相关性网络中,与公司u有关联关系的公司数量。

  • 中心性:股价相关性网络中,公司u出现在任意两个公司s与t之间的最短路径上的频率。

    其中,c(u)为公司u的中心性,nst(u)是从s到t且穿过节点u的最短路径数,Nst是从s到t的最短路径总数。

  • 溢出效应因子:股价相关性网络中,与公司u有关联关系的公司,过去N日的平均涨幅。

下文的研究发现,溢出效应因子在T取不同值时,将会表现出截然不同的特征。

2.1.2

度和中心性因子

如下表所示,度和中心性因子均具备显著为正的选股效果。前者的IC和Rank IC分别为0.046 和0.056,对应的IR分别达到2.071和2.269,胜率在70%以上,T值都在6以上。后者的IC和Rank IC分别为0.048 和0.071,对应的IR分别为2.751 和3.419,胜率都在80%以上,T值分别为8.37和10.4。

虽然原始因子的表现突出,但与9个常用选股因子和行业因子正交后,两者的IC均大幅下降。其中,正交后的度因子IC和Rank IC分别为0.018和0.023,对应的IR分别为1.456和1.638,胜率分别为67.00%和70.50%,T值分别为4.43和4.98。正交后的中心性因子IC和Rank IC分别为0.014和0.022,对应的IR分别为1.529和1.964,胜率分别为68.80%和72.30%,T值分别为4.65和5.97。

下表展示了度和中心性与其他因子的相关性。从原始因子来看,它们与特异度因子的相关性较高,相关系数分别为0.35和0.55。从IC来看,两者与多数因子都具有中等程度的相关性。其中,特异数和反转的相关性最强,相关系数分别为0.45和-0.30。

由此可见,度和中心性因子对股票预期收益的预测性,在很大程度上可被其他因子解释。故将这些因子的影响经正交剔除后,度和中心性因子的IC出现了明显下降(见表1)。但我们也应看到,两个因子正交后的IC依然保持在0.02左右,T值均大于4,胜率在2/3以上。这表明两者还是提供了信息的补充,初步展示出挖掘图网络因子的价值。

根据因子值从小到大等分成10组后,度和中心性因子正交前后的组间月均收益都呈现单调性。正交前,月均收益分别达到1.7%和1.9%;正交后,下降至0.4%左右。

如下表所示,若单独将正交后的度和中心性因子放入包含行业和风格、行为等9个因子的模型中,它们的月均溢价分别为18bps和15bps,T值分别为4.53和4.41,胜率分别为67.6%和69.4%。若同时将两者放入,因子溢价及显著性几乎没有发生改变。

以下4图分别给出了正交后的度和中心性因子的累计截面溢价和多空组合累计净值。总体来看,两者在2016年之前,表现较为稳定。但近两年,因子的有效性均出现了一定程度的下降。

2.1.3

短周期溢出效应因子的反转特征

在构建股价相关性网络时,涉及一个参数,即过去N日的收益率。在本小节中,我们将N设定为20,考察短周期下的溢出效应。

下表详细展示了因子的IC等特征。其中,“NetR_50”表示和每个股票相关系数绝对值最大的50%股票,过去20日的平均涨幅,以此类推。

由上表可见,短周期溢出效应因子和预期收益呈显著负相关。而且,随着对高相关性定义的逐渐严格,IC的绝对值不断上升。

以NetR_10为例,IC和IR分别为-0.048和-1.654,胜率为33%,T值为-5.03;Rank IC和对应的IR分别为-0.056和-1.816。在与常用的因子正交后,IC显著下降,月度均值为-0.021。但因子的稳定性得到改善,IR 为-1.759,胜率为28.60%,T 值为-5.35。

由下表的相关系数可见,短周期溢出效应因子与反转的相关性最强(0.38)。但从上表正交后的结果来看,除了反转现象本身,这个因子还提供了额外的信息。

在包含风格和行为共9个因子的模型中,加入短周期溢出效应因子后,其月均溢价约为-20bps。其中,NetR_10的月均溢价为-21bps,T值为-5.41,胜率为27%。

2.1.4

长周期溢出效应因子的动量特征

我们仿照海外动量因子的构造方法,使用过去t-12月到t-1月的日收益率计算相关系数,进一步检验长周期溢出效应因子的表现。

下表详细展示了因子的IC等特征。其中,“NetM_50”表示和每个股票相关系数绝对值最大的50%股票,过去20日的平均涨幅,以此类推。

总体来看,长周期溢出效应因子的选股有效性较弱。以NetM_10为例,正交前,因子IC和Rank IC分别为-0.002和-0.19,T值分别为-0.11和-1.18;正交后,因子IC和Rank IC的均值上升至0.023和0.015,T值分别为2.93和1.89。

下表为长周期溢出效应因子与常用因子的相关性。除了反转因子,它和其余8 个因子的相关性都不高。

如下表所示,长周期溢出效应因子的月均溢价在12bps到18bps之间。并且,随着对高相关的定义越来越严格,因子的截面溢价逐渐提高。其中,NetM_10的月均溢价为18bps,胜率为60.4%。T值仅为2.10,表明因子的稳定性稍欠。

2.2

主营业务收入网络

由于股价相关性网络基于收益率构建,不可避免地会与反转等技术面因子较为相似。为了避免因子间的高相关,我们尝试使用上市公司的基本面数据构建关系网。

A股上市公司会在财报中披露主营业务收入的相关数据,在Wind中被分为产品、行业、缴费、地区四种类别。我们根据主营业务收入中的产品类别,构建上市公司主营业务收入网络。即,两个公司间存在相同的主营产品类别,则认为它们存在关联关系。根据上文的因子定义,我们在主营业务收入网络中分别计算度、中心性和溢出效应因子,并分别检验它们的选股有效性。下表展示了溢出效应因子的结果。

在主营业务收入网络中,存在微弱的动量溢出效应。即,有相同主营产品的公司,股价的变化会有同向的传导现象。但是这种溢出效应,仅存在于非行业中性下的正交因子中。此时,因子的IC和Rank IC分别为0.014和0.015,对应的IR分别为0.953和1.028,胜率高于60%,T值在3左右。然而,进一步对因子做行业中性化处理后,IC和Rank IC大幅下降至0.007。这一结果也很容易解释,因为同一行业中的公司更容易有相同的主营产品,使得主营业务收入网络接近于另一种形式的行业分类。

2.3

关系网因子的相关性

本文分别基于股价相关性和主营业务产品建立网络,得到了度、中心性和溢出效应三类因子。着重考察了它们和股票预期收益的关系,并分析了各自与常用因子之间的相关性。本节进一步考察这些关系网因子内部的相关程度,结果如下表所示。

度和中心性,以及长(NetM_10)、短(NetR_10)周期的溢出效应,这两组因子内部存在中等程度的相关性,而其余因子之间的相关性都较弱。结合上文的结论,我们认为,对A 股上市公司构建关系网,并从中得到的因子,确实能提供传统分析尚未包含的信息。

3

利用股价相关性网络增强行业、概念板块的溢出效应

3.1

股价相关性网络对行业溢出效应的增强

以ind1M代表一级行业(中信行业分类)的动量溢出因子,即每只股票所属的一级行业,在剔除自身后剩余股票上个月的平均涨幅。类似地,令ind2M和ind3M分别代表二级和三级行业的动量溢出因子。该因子与股票次月收益间存在显著的正相关性,即,所谓的动量溢出效应。

在将股价相关性网络和行业、概念板块的溢出效应叠加之前,我们先通过分析这两类关系网因子的相关性,以寻找更好的增强方式。

如下表所示,长周期溢出效应因子(NetM_10)与行业动量溢出因子的相关系数接近40%,IC的相关系数更是超过75%。这是因为,在较长的周期下,高相关的股票更有可能来自同一行业。所以,股价相关性网络中的长周期动量溢出效应很大程度上就是行业的动量溢出效应,两者叠加并无意义。

相反,不论是个股本身还是短周期的溢出效应因子,都呈现出显著的反转特征。因此,在计算某个股票的行业动量溢出因子时,不妨先剔除那些短期内与其高相关的股票,降低反转特征的影响,达到增强动量溢出效应的效果。

如下表所示,正交后的一级行业动量溢出因子(ind1M)的IC和ICIR分别为0.024和0.946,剔除短周期下,收益率相关系数的绝对值最大的40%股票后(ind1M_r40),IC和ICIR分别提升至0.027和1.18。

3.2

股价相关性网络对概念板块溢出效应的增强

概念板块动量溢出因子的计算方式和上一节类似,只需用股票所属的概念板块替代行业分类即可。在叠加股价相关性网络时,对每一个股票,我们并没有采用在概念板块中剔除与其高相关股票的做法。而是把与它低相关的股票作为一个新的概念板块,再和原来的概念板块融合后,计算新的动量溢出因子。这是因为,根据我们的检验,新的相关板块同样有动量溢出的特征。

以ConcptM、ConcptM_r10和ConcptM_r20分别代表原始及叠加高相关网络后的概念板块溢出因子,后缀中的数字表示剔除高相关股票的比例。如下表所示,正交后(行业中性)的ConcptM因子,IC和ICIR分别为0.024 和1.671。叠加股价相关性网络后,IC和ICIR分别提升到0.027和1.991,T值也从5.08提升到6.06。

如下图所示,正交后的ConcptM_r20因子的组间收益单调,多空月均收益相比原始因子进一步提升,达到1.0%左右。

将上述三个概念板块的动量溢出因子逐次放入包含风格、行为共9个因子的模型中,计算它们的截面溢价,具体结果见下表。

ConcptM_r20的月均溢价为25bps,T值为5.67,胜率达到76.6%。从下图的累计截面溢价和多空组合的累计净值来看,ConcptM_r20因子整体表现稳定,仅在2015年的股市异常波动期间出现过明显的回撤。

4

总结与讨论

本文介绍了上市公司关系网因子的构建思路和若干实际案例。

关系网因子的基本逻辑是上市公司在股票市场中并非独立存在,而是通过产业链上下游、债务、股权等多种关系相互关联,共同构建了股票市场的复杂网络。针对这种现象,我们可以通过某种关联关系将上市公司连成一张关系网,并借助图论的算法从中提取特征,得到另类的关系网因子。常见的方法是从度、中心性、溢出效应三个维度出发,提炼上市公司关系网蕴含的增量信息。

基于全部A股两两之间过去N个交易日的收益率相关性构建股价相关性网络,由此得到的度、中心性和动量溢出因子均具有显著的选股效果。将有相同主营业务产品的上市公司归为一类,形成主营业务收入网络,动量溢出现象在其中依然存在。此外,股价相关性网络可以与行业、概念板块从属关系叠加,增强动量溢出效应。

在后续报告中,我们会采用更加符合逻辑的基本面信息,如供应链、产业链等,进一步构建上市公司的关系网,并从中探索另类策略,为传统的量化方法提供信息增益。

4

风险提示

因子有效性变化风险,历史统计规律失效风险。

联系人:

余浩淼 : 021-23219883

梁镇:021-23219449

张振岗:021-23154386

加载中...