新浪财经

中证金牛丨私募专题研究——量化多因子模型的构建与业内实践

金牛理财网

关注

核心观点

1、量化投资的兴起,源于经济发展到一定程度后对资本市场产生的新需求,即在越来越复杂的资本市场环境中,投资要能产生长期稳定的回报。作为众多投资方法中的一种,量化投资的基本步骤是获取海量的数据、根据数据挖掘和分析制定交易策略、然后执行交易策略获取收益。相较于主观投资,具有不受人性弱点影响、持股数量多且分散、行业配置均衡、不会被板块轮动和行业风格切换影响的特点。

2、多因子量化模型的出现,是投资领域思维方式的一次变革。多因子量化模型关注影响股价走势的因素,将这些因素进行系统化处理,形成包括宏观、行业、上市公司基本面、交易面等不同类型的因子,通过对因子进行不同方式的配置,达到获取资本市场某种类型收益的作用,这一思路简化了问题的分析方法,操作上直指问题核心。基于多因子量化模型可以衍生出Alpha策略、市场中性策略、指数增强策略、CTA策略等,因此成为量化投资机构研究与实践的基石策略。

3、通过比对私募产品中量化选股策略和主动管理策略的绩效发现,量化投资在获取更高的收益、控制波动和回撤等方面的确是具有一定优势。无论是公募基金还是私募基金,量化投资策略的研究和产品发行在过去的三年都获得了长足的发展,整体业绩超越基准,表现良好。

4、多因子量化模型由于具有时效性问题,致使行业内竞争加剧,“内卷”严重。策略同质化的后果是策略交易拥堵,导致策略动量崩溃,进而使超额收益大幅回撤。为避免这一问题,众多投资机构开始尝试新方法,包括积极寻找不同频率的因子、加强机器学习与深度学习等AI方法的应用、采用另类数据开发策略等。鉴于量化投资在国内的发展方兴未艾,新的数据类型、新的策略和新的技术的不断运用,预计会推动量化投资有更好的发展。

一、为什么是量化?

量化投资,是指通过数量化方法构建模型,并由计算机程序自动化交易,以获取稳定收益为目的的投资方式。其在海外发展已有30多年历史,由于业绩相对稳定,市场规模和份额不断扩大,得到越来越多投资者的认可。

从经济学的角度看问题,供给与需求是一项基本的分析方法。如果我们利用这种方法看待量化投资或者说量化交易的出现与兴盛,实乃是水到渠成之事。

需求因素

美国在上世纪80年代,随着人均可支配收入的提高、养老金入市,在个人和机构的联合推动下,资本规模迅速扩张,有权益资产配置的需要。同期阶段,美国股票市场大发展,形成了多元的结构化资本市场。1975-1990年,美国GDP从1.68万亿美元增长至5.96万亿美元,CAGR为8.79%。经济增长带来居民财富的沉淀积累,个人可支配收入也显著提升,从1975年的1.22万亿美元增长至1990年的4.32万亿美元,CAGR为8.78%。美国经济向好,公司经营效益提升,居民财富快速积累,谋求财富增值需求提升。

美国在上世纪八九十年代养老金入市与共同基金发展相得益彰。美国共同基金分别在1979-1981年以及1984-1986年有两轮高速增长,到1990年,美国共同基金净值规模突破万亿到了1.06万亿美元,较1975年增长超20倍,CAGR为23.3%。同期,IRAs规模扩张,养老金逐步入市。共同基金占IRAs投资资产比重(IRAs投资共同基金规模/IRAs总规模)从1980年的4.2%提升至1990年的22.3%,规模也从10亿美元增长至1420亿美元。从共同基金规模构成角度(IRAs投资共同基金规模/共同基金总规模),1990年IRAs账户贡献了共同基金总规模的13.3%。

以养老金为代表的机构投资者兴起,因为资金属性原因,对投资目标提出了新要求,即能获取长期、稳定的收益。面对资本市场标的数量飙升、管理规模急剧扩大,传统主观投资方法很难解决这一问题,而量化投资方法对此能迎刃而解。

供给因素

供给因素主要有几个方面:1)现代金融理论的发展提供了理论支持;2)计算机技术的普及和广泛应用提供了技术支持;3)交易成本的快速下降使量化投资变得切实可行。

现代金融理论肇始于1960年代,由威廉·夏普、林特纳等提出的CAPM定价模型,对资本市场均衡状态下资产风险与预期收益率关系给出明确定义。传统资产定价主要基于现金流贴现法,精度虽高,但无法解决折现模型中每个参数估计都具有很大随机性的缺点。CAPM等金融定价模型跳过了复杂易错的现金流预测模型,能迅速给成百上千股票估算预期收益率,同事更强调风险对收益率的影响。

互联网的兴起,让计算机和金融紧密融合。计算机技术的进步使得海量数据处理成为可能,筛选出能带来超额收益的各类“大概率”事件,模型化为因子经检验后构建策略,然后通过自动化交易来严格执行策略。全球化与金融机构间的竞争,推动了交易费率的下降,且这一趋势有不断延续的可能。

综上,用更为直白的话来说,量化投资的兴起,是因为资本市场上股票多了,资金也多了,用传统人工方式股票不好选、资金也难管理。新的金融理论告诉大家,用数学、计算机的方式能解决这些问题,又恰逢交易成本下降,量化就应运而生了。

所以,为什么是量化?时也,势也!

二、为什么是多因子?

哲学家高清海在给弟子做序时说了一句话,“这个世界上,有什么的改变,能比人类思维方式的改变更让人激动人心吗?”。从对股票的关注,转为对因子的关注,也是投资领域思维方式的一次重要变革。

多因子定价模型(Multifactor Pricing Model)的提出,起初是为了解决资产定价的问题,理论的核心是认为资产的收益可以被其他因素所解释,如未来预期收入、消费品价格走势等,这些因素也被称为因子。随着金融业的发展,学者和从业者们发现该模型同样也可用于股票的定价,即认为股价的波动可以用多个基本面因子或技术面因子来解释,多因子模型也由此被广泛的运用于股票定价。

多因子模型极大的降低了预测工作量。对于一个包含N只股票和K个因子的系统而言,我们利用多因子模型,本质的工作是将对于N只股票的收益—风险预测,转变成对于K个因子的收益—风险预测。以一个1000只股票和20个因子组成系统而言,预测从1000只股票的预期收益和风险转换为对20个因子的预期收益和风险的预测。特别是对于风险的预测,若对1000只股票估计协方差矩阵,需要预测N*(N-1)/2=4950个相关系数。协方差矩阵中包含的独立参数太多,如果采用历史数据的样本方差和协方差,估计值既不稳定也不合理。因为采用历史数据进行估计,采样时间长度为T,要求T>N(即T>1000)。

按照多因子模型最常规的月度频率,需要的数据超过80年,这显然不现实,同时也不合理,因为公司基本面数据是在不断发生变化的。如果我们转为对20个因子构成的系统进行计算,随着预测复杂程度的降低,预测的精度大幅提升。

所以,为什么是多因子?思维方式深刻,实践效果好!

三、量化多因子模型的理论脉络

为了更好地理解多因子模型,按照理论进展的先后顺序,对相关的定价模型做一个简要梳理。

1、资本产定价模型(CAPM)。是由美国学者夏普等人于1964年提出,理论主要以马科维茨的投资组合理论和资本市场为基础发展起来的,是现代金融市场价格理论的支柱。代表性公式为:

2、APT模型。金融学者Ross认为,CAPM用单一的市场因子来解释股票的收益问题可能不完全反应现实情况。为解决这一问题,Ross于1976年提出了套利定价模型(Arbitrage Pricing Theory,简称APT)。APT模型认为,套利行为是现代有效市场(即市场均衡价格)形成的一个决定因素,如果市场未达到均衡状态的话,市场上就会存在无风险套利机会,套利行为会使得市场重新回到均衡状态。APT模型用多个因素来解释风险资产的收益,并根据无套利原则,得到风险资产均衡收益与多个因素之间存在(近似的)线性关系。APT模型用简洁的公式为可以表示为:

3、多因子定价模型。股票或者组合的预期收益率是与一组影响它们的系统性因素的预期收益率线性相关的,这是APT模型的核心思想。多因子模型(Multiple-Factor Model, MFM)正是基于APT模型的思想发展出来的完整的风险模型。与APT有所不同的是,包括了之后有具体因子出现的定价模型,比如Fama-French三因子和五因子就是多因子模型中的代表。以Fama-French三因子模型为例,公式可以简洁的表示为:

四、如何构建多因子量化模型

Barra模型简介

Barra结构化风险模型是目前全球最知名的多因子模型之一。根据Barra手册的内容,多因子模型被分为两部分,收益模型和风险模型。

收益模型:

对于个股收益的两个组成部分,不同的投资方法追求不同的部分。定量管理主要从统计的角度研究因子收益率的变化规律,并且从组合的角度对因子暴露进行管理以超越基准;定性管理主要研究个股的残差收益率,即从因子角度无法解释的超额收益率。定量管理主要研究

定性管理主要研究

已知股票在每个因子上的暴露,通过多因子的收益预测模型,估计各个因子的因子收益率,从而得到股票的预期收益率,这就是多因子收益模型的主要思路。

风险模型:

多因子风险模型的基本思路为,通过估计因子的协方差矩阵刻画股票池未来的波动风险。而后对选股结果以及配置仓位进行二次优化,一般表达形式为:

多因子模型构建流程

基于对理论脉络的梳理和经典模型的回顾,可以对多因子模型的构建流程做一个简要的表述。

1、数据准备

1)基础数据采集:首先需要确定原始因子集合,然后按照原始因子集合逐个进行因子原始数据的采集和计算工作;

2)数据标准化:由于原始数据的量纲不一致,为保证数据之间的可比性和可叠加性,要对原始数据进行标准化、去量纲的工作;

3)识别有效因子:原始因子集合是在逻辑上被认为与股票收益率存在关联性的因素,实证中并不是每个原始因子和股票收益率都存在相关性,因此需要对原始因子进行有效性检验,排除跟收益率相关性不高的因子。

2、收益模型计算

1)大类因子分析

大类因子是指在逻辑上具有一定相似性的因子,在实证中这些因子之间也很有可能表现出很强的相关性,即共线性问题。为尽量多的保留有用信息,需要首先根据因子所属大类对其进行处理,比如进行因子合成,或者尽量挑选效果显著,并且相关性不高的因子集合进行保留。

2)因子共线性分析

如果因子之间存在明显的多重共线性,那么进行多元线性回归时,会使得模型的估计失真或者难以估计准确,所以在进行多元线性回归之前需要进行因子共线性分析,剔除相对不重要但是会对模型造成共线性干扰的因子。

3)残差异方差分析

如果回归的残差项具有不同的方差,则称回归模型存在异方差。如果存在异方差,则传统的最小二乘回归得到的参数估计量不是有效估计量,所以在进行多元线性回归之前必须进行残差的异方差分析。根据Barra的文档,可以采用个股流通市值的平方根作为权重进行加权最小二乘法回归,经实践在大部分截面期上可以消除异方差的影响。

4)多元线性回归

通过多元线性回归计算每一期的因子收益。

5)估计因子预期收益

由于因子每期收益或多或少存在不稳定性,为保证模型的稳定性,需要对因子历史收益序列进行分析,给出下一期因子收益的合理预期值。因为很多因子存在明确的经济含义和投资逻辑,所以因子收益的方向(±号)需要进行约束。

6)计算股票预期收益

根据因子收益和每个股票的因子载荷计算出个股的预期收益率。公式表示为,估算出T+1期的因子收益率向量后

以及计算出T+1期的因子载荷矩阵:

根据模型:

就可以计算出T+1期每只股票的预期收益率向量

3、风险模型计算

1)计算因子收益率协方差矩阵:根据因子收益率的历史序列,计算出因子的协方差阵;

2)残差风险估计:计算出个股的残差风险。

通过多因子模型,面对的操作对象转换成了K个因子。

4、优化模型计算

1)确定组合的收益目标:可以是两种,一种是确定目标收益,然后最小化风险;另外一种是确定风险目标,然后最大化收益。

2)确定组合的风险目标:与组合的收益目标共同确定。

3)行业权重约束:根据风险目标确定行业风险的暴露。如果组合存在基准组合,则需要根据基准组合在各个行业的权重分布,确定行业偏离约束。

4)因子暴露约束:多因子模型本身是一个追求宽度的模型,所以为避免在某些因子上暴露过大导致风险过高,需要对因子暴露进行一定的约束。

5)个股上下限约束:因为卖空约束以及避免在个股上暴露过高的风险,所以需要对个股权重的上下限进行约束。

6)二次规划求解组合权重分配:根据股票预期收益、因子收益率协方差矩阵和残差风险估计获取的个股预期风险—收益数据集,以及行业约束、因子暴露约束和个股上下约束的条件,采用二次规划的方式,计算组合中的个股权重。

7)模拟业绩回溯:根据每期确定的组合成份股及权重分配,对模型进行模拟业绩回溯。综上所述,基本流程总结成图标1所示的多因子分析框架图。

量化多因子模型的核心问题

量化多因子模型构建过程中每一步都很重要,但找到有效的因子,是重中之重。有效因子应该满足两个条件:第一是在逻辑上应该和收益率存在一定的相关性;第二是在实证中确实和收益率存在比较明显的相关性。

1、检验因子有效性的5个步骤

1)步骤一:单因子回归确定每个因子每期的因子收益

市场风险、行业风险、风格风险是影响股票收益最主要的三种因素,在验证风格因子有效性时,必须考虑市场因子和行业因子的影响。对于市场因子和行业因子的处理方式有两种:1)市场因子和行业因子同时纳入模型;2)仅纳入行业因子,而将市场因子包含在行业因子中。

2)步骤二:因子收益率序列检验

所谓有效因子,就是和收益率存在很明显相关性的因子,即满足前面的t的第一点和第二点。根据第三点,可以大致将有效因子分成收益类因子和风险类因子。收益类因子:即因子收益率序列的t值显著不等于0,因子收益率的方向性相对明确,这类型的因子,用历史序列对下一期的因子收益进行预测时,相对比较准确,所以称之为收益类因子。风险类因子:即因子收益率序列的t值在0附近,因子收益率的方向性相对不明确,这类型的因子,用历史序列对下一期的因子收益进行预测时,风险比较大,所以称之为风险类因子。

收益类因子是多因子模型超额收益的主要来源,在模型中是需要风险暴露相对多的因子。而风险类因子也需要重点关注,因为风险类因子是进行风险控制的重点,需要风险暴露尽量少。

3)步骤三:因子IC值

在实际计算中,因子k的IC 值一般是指个股第T期在因子k上的暴露度与T+1期的收益率的相关系数。因子IC 值反映的是个股下期收益率和本期因子暴露度的线性相关程度,是使用该因子进行收益率预测的稳健性。在利用IC值评价因子有效性时,可以预先对因子进行提纯,排除行业、市值等重要因素的影响,使结果更明晰。关注点如下:1)IC值序列的均值及绝对值均值:判断因子有效性;2)IC值序列的标准差:判断因子稳定性;3)IC值序列大于零(或小于零)的占比:判断因子效果的一致性。

4)步骤四:因子打分法回测

依照因子值对股票进行打分,构建投资组合回测,是最直观的衡量指标优劣的手段。一般来说,对于比较有效的因子(如市净率),分成3~5层进行回测,各个投资组合的最终净值一般可以保序。分成N层(N>5)进行回测时,可以用最终净值的秩相关系数来衡量因子的优劣(秩相关系数的绝对值越接近1时效果越好)。

5)步骤五:纯因子模型的构建

分层回测方法比较直观但无法保证其对其他因子的暴露中性。需要构造纯因子模型,即对单一因子暴露为1,对于其他暴露为0的模型。

纯因子模型的求解可以用以下回归方程表示:

其中,X为因子暴露矩阵,由1个国家因子、S个行业因子和M个风格因子构成。假设横截面标的数为N,则是一个N×(1+S+M)阶的矩阵。w为行业整体流动市值,加入该限制条件是因为在回归方程中引入了国家因子,而行业因子之和为1,这会导致解的不唯一性。所以需要加入行业市值权重的限制,保证解的唯一。为解决异方差性,在回归时使用根号流动市值为标的加权,构建N×N阶对角矩阵V,

根据带约束条件的最小二乘法,可求得纯因子投资组合的权重矩阵Ω:

该矩阵的每一行对应一个纯因子组合,使用该组合乘以标的当期超额收益率即可得到当期的纯因子收益率。

多因子模型的绩效分析

对量化模型绩效的考察,主要从收益和风险两个角度来考察。收益方面,可以考察年化收益率、年化超额收益率等;风险方面,可以考察年化波动率、最大回撤、夏普比率等。根据这些指标,也衍生出很多的度量策略绩效的指标,不再赘述。同时,对多因子模型的收益和风险也需要进行分析,探明来源。

寻找有效因子的行业“内卷”

1、比较知名的几个多因子模型

(1)Fama-French三因子模型:该模型是依据Fama and French(1992)的成果构建的。由于CAPM不能解释某些所谓的金融异象,学界和业界对其不断提出质疑。Fama and French在1992年将各种CAPM无法解释的异象进行了整合,彻底颠覆了人们对CAPM的看法:他们在传统CAPM的基础上加入了价值因子(High-Minus-Low,即HML)和规模因子(Small-Minus-Big,即SMB),提出了Fama-French三因子模型,从而成为多因子模型的鼻祖。

(2)Carhart的四因子模型:由于Fama-French的三因子模型在“适用性”上依然有很多限制,特别是无法解释众多异象中的截面动量异象。Carhart在1997年论文中,将截面动量因子加入到Fama-French三因子模型,从而提出了Carhart四因子模型。

(3)Novy-Marx四因子模型:该模型是Novy-Marx在2013年提出的,即在Fama and French(1993)的基础上增加了盈利因子。但与Fama-French三因子以及Carhart四因子模型不同的是,Novy-Marx (2013)在构建因子时进行了行业中性处理。

(4)Fama-French五因子模型:Fama和French在2015年,在以往三因子模型的基础上增加了盈利和投资两个因子,提出了新的五因子模型

2、寻找因子的行业“内卷”

有效因子都有一个时效性问题。随着量化交易规模的快速增长,量化多头赛道愈发拥挤,策略同质化问题逐步显现,想要获取超额收益困难重重。量化多头策略的超额收益主要来源于选股,而选股需要成千上万个因子。当最有效的因子被越来越多的头部机构发现并使用时,原来行之有效的因子就会面临失效的问题。私募之间的,尤其是头部私募,运用各种手段寻找有效的因子,不断加快策略的迭代,希望能够抢占盈利的先机。

因子与策略同质化促使机构不断尝试新的方法。2021年3季度开始,国内的指数增强基金的超额收益快速回落,2022年10月又一次出现类似状况。背后的原因就是当策略不断同质化时,策略拥挤导致动量崩溃并进而带来超额收益的大幅回撤。策略同质化成为公募、私募开展量化交易必须要重视的问题。很多机构已经作出一些积极的尝试。例如,机器学习和深度学习等新技术在量化投资领域的应用日益多起来了。

近年来,随着另类数据提供商的不断增加,数据整体质量有了明显提升。也有越来越多的机构投资者开始尝试将一些另类数据运用到投资实践中。这些基于另类数据的策略显然不会像传统策略那样拥挤,也将有效地改善策略拥挤的问题。展望未来,新的数据类型、新的策略、新的技术的不断运用,将有效解决因子交易拥堵、策略拥堵的问题。

五、量化多因子模型的业内实践

多因子模型是量化投资的基石。提及量化投资时,就会不得不提“多因子模型”,因为多因子模型是机构进行量化投资的重要组成部分。多因子模型的构建涉及到选股、资产配置、仓位管理、风险控制等方方面面的内容,对多因子模型稍加改造,就可以得到Alpha策略、CTA策略、市场中性策略、指数增强策略等。多因子模型的优势在于,可以通过有限的因子对大量个股进行有效筛选,降低了选取标的的难度,通过合理预测做出判断。

多因子选股策略虽然采用了量化投资的方式,但背后体现的是基金经理的主动选股思路。与传统的主动选股基金相比,多因子模型与选股策略以其独特的优势,被越来越多的国内量化投资者所采用。

从收益与风险控制能力两个角度考察量化型私募产品的业绩依据国金证券的统计,在近3年,私募基金产品中,量化选股策略(中高频)与股票主动策略对比,前者相应指数在3年内累计收益水平为64.14%,最大回撤为-24.48%;后者相应指数在3年内累计收益水平为30.53%,最大回撤为-32.20%。从盈利能力和控制风险能力两方面考虑,量化投资方式具有一定的优势。

私募量化近期情况

由于2022年权益市场整体走弱,私募证券投资基金的存续规模出现萎缩。根据基金业协会数据,存续总规模从2021年底的61247.38亿元萎缩到了2022年底的55622.85亿元,同比减少了9.18%。存续私募证券投资基金产品数量稳步攀升,从2021年底的76839只上升到了2022年底的92604只,同比增长20.52%。

在当前的私募证券投资市场中,约有20%的资金是通过量化方式管理,2019年至2021年是国内私募量化高速发展时期,规模迅速攀升。在2022年增速放缓,大部分头部量化私募的规模有所减少。百亿量化私募是市场关注的焦点。据招商证券统计,截至2022年底,有管理规模在百亿以上的头部量化私募27家,合计管理规模超过国内全部量化私募管理规模的50%。

在产品业绩方面,同样是据招商证券统计,2022年CTA策略产品表现好于权益类产品收益。其中,CTA量化套利策略的综合收益为4.42%、CTA趋势策略的收益为2.19%;权益类产品,中性策略的收益为0.66%,而量化多头策略收益则为-11.02%。私募量化产品一般采用多策略运行,很难简单将某只产品划分为量化多因子类型的策略,也正如前面所述,多因子策略是基础型策略,衍生出各种其他类型策略。从最终的投资模式来看,量化多头策略与多因子策略可能最为相近。考虑到沪深300等重要市场表征指数在2022年均有-20%以上的跌幅,量化多头策略整体-11.02%的收益率,已经是远超市场走势了,表现可谓良好。

公募量化近期情况

公募基金相关数据相对容易获得。截至2022年末,公募量化产品总计434只,包括主动量化产品219只,指数增强产品191只,对冲型产品24只。公募量化产品的总规模达2447.11亿元,包含主动量化产品685.89亿元,指数增强产品1636.79亿元,对冲型产品124.44亿元。相较于2021年末,公募量化产品数目增加34只。在规模方面,2022年度公募量化产品整体规模比2021年底减少380亿元。

重点考察主动量化型基金的收益情况。该类型基金在2022年平均收益为-20.14%,收益的中位数为-20.22%。收益最高为12.23%,收益最低为-43.98%。将考察期间放宽,过去3年和过去5年主动量化基金的平均年化收益分别为7.55%和5.43%。与主要宽基指数对比来看,其过去5年的平均年化收益高于除创业板指以外的主要市场宽基指数,表现良好。

六、简要结论

量化投资的兴起,是源于经济发展到一定程度后对资本市场产生的需求。它与主观投资一样,是众多投资方法的一种,基本步骤就是获取海量的数据、根据数据挖掘和分析制定交易策略、然后执行交易策略获取收益。相较于主观投资,具有不受人性弱点影响、持股数量多且分散、行业配置均衡、不会被板块轮动和行业风格切换影响的特点。

多因子量化模型关注影响股价走势的因素,将这些因素进行系统化处理,形成包括宏观、行业、上市公司基本面、交易面等不同类型的因子,通过对因子进行不同方式的配置,达到获取资本市场某种类型收益的作用,这一思路简化了问题的分析方法,操作上直指问题的核心。基于多因子量化模型可以衍生出Alpha策略、市场中性策略、指数增强策略、CTA策略等,因此成为量化投资机构研究与实践的基石策略。

通过比对私募产品中量化选股策略和主动管理策略的绩效可以发现,量化投资方法在获取更高的收益、控制波动和回撤等方面的确是具有一定优势。无论是公募基金还是私募基金,量化投资策略的研究和产品发行在过去的三年都获得了长足的发展。整体业绩超越基准,表现良好。

行业内竞争加剧导致多因子量化模型时效性问题愈发严重。量化投资领域的激烈竞争,致使新的有效因子一旦为市场发掘,会有众多量化机构开发基于该类型因子的投资策略。策略同质化的后果是策略交易的拥堵,导致策略的动量崩溃,进而使超额收益大幅回撤,因子有效应的持续时间也会相应缩短。为避免这一问题,众多的投资机构开始尝试新的方法,包括积极寻找不同频率的因子、加强机器学习与深度学习等AI方法的应用、采用另类数据开发策略等。鉴于量化投资在国内的发展方兴未艾,新的数据类型、新的策略和新的技术的不断运用,预计会带来量化投资的更好发展。

(CIS)

加载中...