新浪财经

深度风险模型与强化风险模型的构建及组合优化 | 民生金工

市场投研资讯

关注

(转自:尔乐量化)

➤ 统风险模型在市场冲击下解释度降低,深度风险模型(Deep Risk Model)可以改善这一问题。

传统风险模型(如Barra模型)在市场冲击下解释度下降,难以捕捉市场中的非线性关系。通过构建基于图注意力网络(GAT)和门控循环单元(GRU)的深度风险模型,日度收益回归解释度较传统模型提升4%至33%,2024年9月等市场波动时期提升尤为显著。

➤ 深度风险模型用于组合优化对深度学习因子与基本面因子均有提升。

对于深度学习alpha因子Meta_Master,深度风险模型相较传统风险模型在沪深300指数增强组合信息比率持平,中证500,中证1000指数增强组合信息比率提升0.2左右。对于基本面价值因子AEG,深度风险模型在沪深300指数增强组合信息比率持平,中证500指数增强组合信息比率提升0.6,中证1000指数增强组合信息比率提升0.8,效果明显。

➤ 强化风险模型(Reinforcement Risk Model)可进一步提升解释度以及组合优化表现。

引入强化学习PPO算法动态优化风险因子生成,解决深度风险模型因重新训练导致的因子含义不一致等问题,解释度进一步提升至35.3%,与深度学习alpha因子相关性有所降低,同时因子在时序上更加稳定,适合实际应用与生产。在组合优化中,Meta_Master强化学习沪深300指数增强组合年化超额收益9.2%,信息比率1.89,较深度风险模型提升0.2左右;中证500指数增强组合年化超额收益11.7%信息比率2.73,较深度风险模型提升0.2左右;中证1000指数增强组合年化超额收益13.4%,信息比率2.58,较深度风险模型下降0.2左右。

➤ LinSAT网络支持在深度神经网络中进行组合优化,端到端输出组合持仓,收益弹性显著提升。

在组合优化中,端到端的LinSAT网络直接输出满足约束的持仓权重,我们利用Meta_Master模型中最后一层的Encoder与LinSAT网络进行拼接,模型输出为每只股票的持仓权重,并在LinSAT网络中加入行业,市值,及深度风格暴露约束以及个股权重约束(考虑成分股),并在沪深300、中证500、中证1000指数成分股中分别训练,最终3个指数增强策略年化超额收益分别达到13.0%、16.6%、17.1%,信息比率最高达3.27,收益弹性提升,跟踪误差略微放大,信息比率显著提升,显著优于之前所有方法。

➤ 在LinSAT网络支持在深度神经网络中进行组合优化,端到端输出组合持仓,收益弹性显著提升。

强化学习同样可以将alpha信号与风险因子共同纳入考量,构建投资组合。我们延用PPO算法,重新定义CMDP问题。在输入端加入Meta_Master模型Encoder的输出部分,通过双头网络输出当日的股票持仓与风险因子,在奖励函数中加入收益奖励部分,并约束风险因子与组合持仓的稳定性以及风格暴露等因素, 直接取持仓动作作为交易信号,超额收益与信息比率均有下降,效果不理想。

01

传统风险因子难以捕捉复杂的非线性市场关系,本篇研究中我们构建AI风险模型以解决这一问题。投资组合风险管理的核心在于准确估计风险因子收益的协方差矩阵,以优化投资组合的风险收益权衡。深度风险模型通过结合图注意力网络(GAT)和门控循环单元(GRU)的混合架构,从股票特征中自动学习隐风险因子,旨在提升收益解释度与风险控制能力。

1.1 深度风险模型构建

我们结合GAT图注意力网络与GRU学习风险因子,首先通过GAT捕捉股票间的横截面关系,随后通过GRU建模时间序列的动态变化,旨在同时捕捉特质与非特质的风险因子。深度风险模型分为上下两支,下支为GRU网络,学习每个股票过去时序的信息,捕捉股票市场的全局信息;上支为GAT+GRU网络,首先通过GAT构造每个截面batch上的股票间关系,随后利用输入减去GAT的输出得到残差,再输入到GRU网络当中,旨在捕捉剥离股票相关性之后的市场信息。通过这样的模型结构,将特质性信息的风险因子与非特质信息的风险因子拼接到一起,上下两支分别经过FC+Norm,即全连接层+标准化曾得到K/2个风险因子,最终得到K个风险因子,在本篇研究中,为了对标Barra CNE5风险模型,我们令K=10

图注意力网络(Graph Attention Network, GAT)是一种专门处理图结构数据的深度学习模型,由Velickovic等人在2017年提出。GAT的核心思想是在每个节点上计算注意力系数,以确定节点与其邻居节点之间的关联性。这种注意力机制使得模型能够对不同节点之间的关系赋予不同的权重,从而更好地捕捉图数据中的局部结构和全局信息。GAT模型通常由多个注意力头组成,每个头都可以学习不同的注意力权重,最后将多个头的输出进行聚合。这种多头注意力机制有助于提高模型的表征能力和泛化能力。

本篇研究中我们利用一个简化版的图注意力网络(GAT),专门用于分析多只股票之间的相关性关系。在传统的线性风险模型中,风险因子由个股的基本面与量价指标计算的描述子合成得到,这个过程对于每一只股票都是一视同仁的。而在本篇研究中,我们希望通过GAT网络捕捉股票相似程度,从而剔除掉这部分相关性,捕捉股票的特质信息。GAT网络通常用来衡量图结构的相似程度,而在本篇研究中,我们利用GAT网络衡量股票间相似程度,直接用个股原始特征来代替图结构输入,即将三组完全相同的数据(Query/Key/Value)输入GAT网络:Q,K和V完全相同,为n只股票在T个时间步上的k个原始特征(量价及线性Barra因子)。具体地,首先分别对Q,K,V经过一个线性变换层,再对每个时间点计算注意力机制:通过矩阵乘法计算相关性、缩放后经过LeakyReLU与softmax转化为注意力权重;最后根据注意力权重对Value向量(V)进行加权组合,得到每支股票的相似度表示。这个新表示衡量了哪些股票之间存在强相关性,某只股票受其他股票影响的程度。以及随时间变化的股票关系模式。

深度风险模型输出的因子应当具有3个特性。第一,因子对市场收益应具备较高的解释能力,从而更好地预测协方差矩阵与特质风险;第二,因子间应该具备弱相关性,以解释不同维度的市场风险;第三,每一个因子应该在时间序列上具备较好的稳定性,弥补经济意义的不足。

深度风险模型训练的损失函数包含两部分以让风险因子满足上述2个特性。第一部分为正则化残差:衡量预测风险因子的回归预测与实际股票之间的差异;第二部分为因子正交性优化:计算风险因子协方差矩阵的逆的迹,并使用一个正则化参数λ来缩放这一值,详细推导请见附录。

对于风险因子应满足的第三个特性,我们利用多任务训练的形式来提升因子的时序稳定性,即拟合优度不光使用一天的,而使用未来20日每天相对于当日的收益率进行学习。最终的损失函数为:

我们采用过去40日个股的日频量价及Barra CNE5的10个基础风险因子作为输入数据。从2016年开始训练,2020年开始预测。即每次训练集+验证集为4年,每年滚动训练一次。模型首先避免将市场波动较大的2014,2015年纳入训练,且2020年开始样本外预测的主要原因为模型被提出较晚,样本外从2020年开始可以避免未来知识的影响。

1.2 深度风险模型测评

1.2.1 解释度及相关性

在最主要评估指标的解释度上,深度风险模型显著优于传统风险模型。我们用10个深度风险因子替代10个原始风格因子,加入中信行业哑变量后进行带约束的OLS回归,由于加入了国家因子𝑓𝑐会造成多重共线性,我们限制行业的加权收益为0,因此我们需要约束行业因子加权收益为0,并计算残差收益,即

其中,Xn为因子暴露,fi为行业因子收益,fs为深度风险因子收益,un为残差收益,fc为国家因子,wi为按照市值计算的行业权重。随后,按照barra文档中用收益平方和取代总平方和,计算R2表征模型解释度。深度风险模型解释度较传统风险模型从29%提升至33%,提升幅度4%,拟合优度提升明显。在去年九月市场波动较为明显时,深度学习风险因子的解释度明显提升。

从相关性上看,深度风险因子与传统Barra风险因子的相关性参差不齐。纵向来看,一半左右的深度风险因子,如f_0,f_2,f_5,f_9等因子可以较为显著的被风格因子解释,而f_1, f_3等因子则与风格因子的相关性较低。横向来看,深度风险因子与贝塔,流动性,动量,市值与波动率等因子的相关性较高,与盈利,杠杆等基本面因子相关性较低,本质上是对信息更新频率更高的量价信息进行了非线性关系的进一步补充。

深度风险因子直接选股表现较弱,时序稳定性尚可。对每一个深度风险因子分别进行回测,日频与周频IC均在0.02以下,最显著多空收益-11%,大多数深度风险因子在选股上为负向因子。因子平均一阶时序自相关性达92%,取值较为稳定,一定程度上可以弥补经济意义的不足可能带来的缺陷。

此外,深度学习风险因子与深度学习alpha因子存在弱相关性。计算深度学习风险因子与我们在《深度学习如何自适应市场状态以提升模型稳健性?》中提出的Meta_Master因子的相关系数,平均相关系数绝对值达16.3%,存在弱相关性,故我们在后续组合优化中须注意深度风险因子约束,避免约束太严而牺牲alpha收益。

1.2.2 组合优化效果

将深度风险模型对比传统风险模型应用至组合优化。我们根据barra中的方法,通过回归出深度风险因子收益及特质收益,进一步计算出深度风险因子协方差矩阵与相应的股票特质风险,风险矩阵的调整参数上我们对标barra CNE5中的short模型,即预测短期风险的模型。随后,我们使用在上一篇报告《深度学习如何自适应市场状态以提升模型稳健性?》中得到的Meta_Master因子进行组合优化,限制个股偏离不超过2%,行业偏离不超过基准的10%(相对行业基准百分比),风险因子偏离不超过0.5倍标准差,预测跟踪误差不超过5%,进行双周频调仓,费率设为千分之二,在沪深300,中证500与中证1000中对比结果如下:

使用barra风险模型的沪深300指增策略年化超额收益9.1%,跟踪误差5.4%,信息比率1.7。使用深度风险模型的沪深300指增策略年化超额收益8.6%,跟踪误差5%,信息比率1.72。对于沪深300,深度风险模型降低了跟踪误差,但超额收益也有所下降,信息比率持平。

使用barra风险模型的中证500指增策略年化超额收益10.0%,跟踪误差4.7%,信息比率2.13。使用深度风险模型的中证500指增策略年化超额收益11.1%,跟踪误差4.4%,信息比率2.52。对于中证500,深度风险模型降低了跟踪误差的同时提升了超额收益,信息比率提升。

使用barra风险模型的中证1000指增策略年化超额收益12.3%,跟踪误差5.0%,信息比率2.48。使用深度风险模型的中证1000指增策略年化超额收益12.9%,跟踪误差4.5%,信息比率2.84。对于中证1000,深度风险模型降低了跟踪误差的同时提升了超额收益,信息比率提升。

除深度学习alpha因子外,我们同样对比了两种风险模型在基本面因子指数增强组合构建时的表现。在报告《超额收益增长模型AEG:PE估值的内涵逻辑》中,我们构建了AEG_EP因子,不仅考虑了公司盈利,还通过分析师一致预期的EPS和历史派息计算股利再投资部分的价值,最终因子相对Wind全A超额收益22%。因子在传统风险模型与深度风险模型下构建的指数增强组合表现如下:

使用barra风险模型的AEG沪深300指增策略年化超额收益11.7%,跟踪误差5.3%,信息比率2.2。使用深度风险模型的AEG沪深300指增策略年化超额收益12.1%,跟踪误差5.4%,信息比率2.23。对于沪深300,深度风险模型跟踪误差基本持平,超额收益有微弱提升,信息比率有微弱提升。

使用barra风险模型的AEG中证500指增策略年化超额收益10.2%,跟踪误差4.9%,信息比率2.06。使用深度风险模型的AEG中证500指增策略年化超额收益13.0%,跟踪误差5.0%,信息比率2.61。对于中证500,深度风险模型的跟踪误差持平,超额收益提升,信息比率显著提升。

使用barra风险模型的AEG中证1000指增策略年化超额收益12.4%,跟踪误差6.2%,信息比率2.0。使用深度风险模型的AEG中证1000指增策略年化超额收益15.4%,跟踪误差5.8%,信息比率2.84。对于中证1000,深度风险模型降低了跟踪误差的同时提升了超额收益,信息比率提升。

02

强化风险模

CHAPTER

深度风险模型虽然解释度有所提升,但是有几点弊端:

1.模型年度滚动重新训练后,风险因子逻辑会发生变化,且训练集较为滞后,无法适应最新市场状态。

2.某些风险因子容易与深度学习alpha同质化,从而在控制因子暴露时牺牲alpha。

3.解释度有一定提升,但仍有改进空间。

基于以上不足,我们继续研究强化学习预测风险因子,旨在解决以上问题,并进一步提升模型表现。

2.1 强化风险模型构建

 强化学习是一种机器学习方法,通过与环境的交互来训练智能体,使其在不同状态下采取能够最大化累积奖励的行动。其目标是通过试错学习找到最优策略,使得在长时间内累积的奖励最大化。在强化学习中,智能体(Agent)通过与环境的互动不断学习,通过奖励和惩罚来调整其策略,以便在长期内获得最大回报:

强化学习与深度学习同属于机器学习范畴,概念却有较大差异。首先, 强化学习是“回合制“训练,每个回合训练的同时也会输出用于下一个回合训练的数据,即”历史经验“;在模型结构上,强化学习比深度学习更为复杂,经常用到多个深度学习模型;模型输出不是对于特定变量的预测,而是输出直接的动作决策,以达到模型的长期目标。

利用强化学习解决风险因子预测问题,同样需要因子具备高解释度与时序稳定性,我们选择强化学习的原因主要有三:

1. 因子生成可视为逐时间步的决策过程,动态适应市场变化,且样本外的在线策略因子逻辑不变; 

2. 希望得到相比深度学习更加异质的风险因子,更少牺牲深度学习alpha;

3. 相比深度学习更加平衡解释度与相关性,效果进一步提升。

建立强化风险模型,我们需要先将问题转化为约束马尔可夫决策过程(Constrained Markov Decision Process, CMDP),即定义五元组

State:状态空间,即过去一段时间(T日)的N个股票原始特征,有时我们会将此信息通过GRU编码为隐藏层。

Action:动作空间,即当日输出的风险因子,通过策略网络θ(深度神经网络)输出。

Probability: 状态转移概率,表示在在状态S下执行动作A后,状态空间转移到下一个状态的概率分布,这里我们不用显示规定这一规律。

Reward:奖励函数,即风险因子对于收益的解释程度,回归R2。

Constraint:约束条件,我们可以约束前后2天强化学习风险因子的自相关性在某个阈值以上。

基于上述CMDP,我们采用PPO模型进行强化学习风险因子建模。PPO模型最早由SCHULMAN J, FILIP W, DHARIWAL P, et al.2017年在论文 《Proximal policy optimization algorithms》中提出,是Actor-Critic强化学习框架的变种,核心是首先使用策略(Actor) 网络与环境交互采样,然后使价值 (Critic) 网络评估状态值并计算优势函数(GAE),之后根据PPO裁剪目标优化策略,限制策略更新幅度,最后重复采样和更新过程,逐步提升策略性能。其特点是可以将强化学习的约束优化问题通过拉格朗日松弛转化为无约束优化问题,策略网络目标为最大化奖励,其目标函数为最大化稳定性惩罚后的价值,即优势函数

r为当前时刻的回归R2,V为t时刻价值网络的R2估计,α= πθ/πOld为新旧策略概率比,clip裁剪机制可用torch.clamp实现,ϵ取0.2,c=1-Autocorr(Ut)为风险因子的自相关成本,β是自适应惩罚系数,动态调整以平衡解释力与稳定性。

Critic价值网络的损失函数为Critic网络输出与累积未来奖励经验值的MSE:

具体地,PPO风险模型算法分为以下步骤:

按照上述过程计算单个回合,每个回合都包含训练集内的所有天数。回合结束后策略会进行10次epoch梯度更新,并检查验证集内风险因子的自相关性,若不满足,则会继续增加自相关性惩罚系数β,随后进入下一个回合。模型每次训练集为3年,验证集为1年,第一次训练的训练集为2016-2018年,验证集2019年,在样本外,定义样本外每20天1个回合,即每20天按照前文流程动态更新模型,并利用更新后的策略网络进行样本外预测,直到最新日期。模型超参数细节及含义如下表:

2.2 强化风险模型测评

2.2.1 解释度及相关性

强化学习风险因子对于市场收益解释度进一步提升。按照1.2节中的方法,计算强化学习风险因子的残差收益与拟合优度。解释度上,强化学习风险因子近5年的回归R2达到了35.3%,相比DRM模型进一步提升了2.3%。可以看到,在某些解释度的峰值和低谷期,强化风险模型相对深度学习都有一定提升。

Barra风格因子对于强化学习风险因子的解释程度较深度学习稍弱。与风格因子相关性上,强化学习因子依然参差不齐,总体来看相关性极值减少,但并无较为特质化的单风险因子。

强化学习风险因子选股收益一般。对每一个强化风险因子分别进行回测,结果如下表。强化学习风险因子的日频与周频IC绝对值均在0.02以下,最显著多空收益11%,大多数强化风险因子在选股上为正向因子,年化超额收益最高达8%(相对中证800)。因子平均一阶时序稳定性达94.6%,取值较深度学习因子更加稳定,且因用样本外回合不断更新策略网络,无需定期重新滚动训练,样本外风险因子含义一致,更适合日常生产。

强化学习风险因子与深度学习alpha因子的相关性更低。强化学习风险因子与Meta_Master因子的相关系数绝对值为6.7%,较深度学习风险因子降低10%左右,确实较深度学习更加异质化。

2.2.1 组合优化表现

采用1.2.2中相同方法计算强化学习协方差矩阵与特质风险预测,保持所有风险控制指标一致,即风险因子偏离不超过0.5倍标准差,预测跟踪误差不超过5%,进行双周频调仓,费率设为千分之二,在沪深300,中证500与中证1000中对比结果如下:

Meta_Master强化学习沪深300指数增强组合年化超额收益9.2%,跟踪误差4.9%,信息比率1.89,超额收益累计最大回撤3.7%,信息比率较深度风险模型提升0.2左右。

Meta_Master强化学习中证500指数增强组合年化超额收益11.7%,跟踪误差4.3%,信息比率2.73,超额收益累计最大回撤3.4%,信息比率较深度风险模型提升0.2左右。

Meta_Master强化学习中证1000指数增强组合年化超额收益13.4%,跟踪误差5.2%,信息比率2.58,超额收益累计最大回撤3.5%,信息比率较深度风险模型下降0.2左右,证明强化风险模型或更适合大盘。

03

如何在深度/强化学习组合中融合风险模型?

3.1 端到端的深度学习组合构建

利用深度神经网络输出因子后利用风险模型进行优化,相比传统风险模型无法显著提高组合收益弹性,所以我们可以尝试在训练时利用LinSAT网络进行组合优化。LinSAT网络由Runzhong Wang等人于2024年的论文《LinSATNet: The Positive Linear Satisfiability Neural Networks》中提出,其扩展了经典的Sinkhorn算法,使其能够处理多组边际分布,为正线性约束的可满足性提供理论支持。LinSAT层设计了一个可微且无参数的轻量级层,用于将正线性约束编码到神经网络的输出中,通过将正线性约束视为边际分布,实现了端到端的可微训练,确保了约束的严格满足。

LinSAT网络可以加入至深度神经网络中进行组合优化,从而直接输出优化后的组合持仓。在上一篇机器学习专题研究中,我们提出了基于市场信息以及市场风格偏好的改进Transformer模型,并结合元增量学习训练框架进行训练,得到Meta_Master因子,表现优异。详情请参考民生证券研究院《从增量学习到元学习:深度学习训练新框架》。

我们利用Meta_Master模型中最后一层的Encoder与LinSAT网络进行拼接,模型输出为每只股票的持仓权重。对于成分股限制,我们构建一个约束矩阵C,使得C乘以权重向量w后等于零,其中C的每一行对应一个非成分股,强制其权重为零。同时,保持成分股的权重和为1,并设置个股权重上下限。

利用混合模型在全A股上训练,但分别输出沪深300,中证500,中证1000的持仓,即最终分别训练3个模型,采用模型输出作为持仓进行回测。结果如下:

Meta_Master-LinSAT沪深300指数增强组合年化超额收益13.0%,跟踪误差5.7%,信息比率2.58,超额收益累计最大回撤3.8%,超额收益与信息比率较前2种方法都有提升。

Meta_Master-LinSAT中证500指数增强组合年化超额收益16.6%,跟踪误差5.1%,信息比率3.27,超额收益累计最大回撤3.2%,超额收益与信息比率较前2种方法都有提升。

Meta_Master-LinSAT中证1000指数增强组合年化超额收益17.1%,跟踪误差5.5%,信息比率3.13,超额收益累计最大回撤3.1%,超额收益与信息比率较前2种方法都有提升。

结果表明,在跟踪误差牺牲不多的前提下,组合收益弹性明显提升,各个指数增强组合的信息比率也有显著提升,同时超额收益累计最大回撤并无增加,说明跟踪误差的提升主要由超额收益的上行波动率提升造成。

3.2 端到端的强化学习组合构建

强化学习同样可以将alpha信号与风险因子共同纳入考量,构建投资组合。鉴于PPO模型的特殊性,将成分股约束纳入模型中较为复杂,故我们需要针对每一个指数成分股单独训练。与之前的深度学习不同的是,我们可以将现成的alpha模型输出整合至强化学习中,因为alpha因子是全A训练得出,故收益弹性不会因为指数内训练而衰减。

我们延用PPO算法,重新定义CMDP问题:

• State:状态空间,即过去一段时间(T日)的N个股票原始特征,通过GRU编码为隐藏层,与个股在当天Meta_Master模型Encoder输出

• Action:动作空间,通过双头网络输出当日的股票持仓与风险因子,其中股票持仓通过softmax激活函数确保权重之和为1。

• Probability: 状态转移概率,表示在在状态s下执行动作a后,状态空间转移到下一个状态的概率分布,这里我们不用显示规定这一规律。

• Reward:奖励函数,即时奖励为w1*R2 + w2*组合收益。

• Constraint:约束条件,我们可以约束前后2天强化学习风险因子的自相关性在某个阈值以上,且约束组合权重前后两天变动不超过10%,风险因子+市值暴露与个股偏离暴露不超过各自阈值,作为目标函数中的惩罚项加入

最终风险模型算法分为以下步骤:

对强化学习组合构建的初步实验表明,强化学习最终策略在跟踪误差与年化超额收益上都无法显著跑赢LinSAT网络与之前的深度及强化风险模型。具体表现如下:

强化学习沪深300指数增强组合年化超额收益10.9%,跟踪误差5.7%,信息比率1.9,超额收益累计最大回撤4.8%,超额收益与信息比率都不如之前模型

强化学习中证500指数增强组合年化超额收益13.6%,跟踪误差6.2%,信息比率2.19,超额收益累计最大回撤5.0%,超额收益与信息比率都不如之前模型

强化学习中证1000指数增强组合年化超额收益14.8%,跟踪误差6.5%,信息比率2.28,超额收益累计最大回撤5.0%,超额收益与信息比率都不如之前模型

在所有方法中,LinSAT网络进行的组合优化可以获得最高的超额收益与信息比率,在不大幅牺牲跟踪误差的同时,超额收益的弹性也有显著提升,是本篇研究中最好的组合优化解决方案。因强化学习可调参数与设定非常之多,且为日频调仓,费率牺牲较大,表现不尽如人意。我们将在未来继续探索其在组合优化上的可能性。

04

本篇研究中,我们对于风险模型以及组合优化提出了新的AI解决方案。最终结果表明,强化风险模型相比深度学习风险模型解释度有进一步提升,指数增强组合效果有微弱提升;使用LinSAT网络进行的组合优化可以获得最高的超额收益与信息比率,在不大幅牺牲跟踪误差的同时,超额收益的弹性也有显著提升,是组合优化问题最好的解决方案。

传统风险模型在组合优化中面临的核心困境在于其静态特性和有限的解释能力。以2024年9月的市场波动为例,传统模型在此类风格切换节点往往出现明显的适应性滞后,导致组合跟踪误差扩大和超额收益回撤。

本篇研究中,我们首先提出了深度风险模型。利用图注意力网络(GAT)的应用捕捉了股票间的动态关联,再用门控循环单元(GRU)的进行时序建模,输出风险因子。对于深度学习alpha因子Meta_Master,深度风险模型相较传统风险模型在沪深300指数增强组合信息比率持平,中证500,中证1000指数增强组合信息比率提升0.2左右。对于基本面价值因子AEG,深度风险模型在沪深300指数增强组合信息比率持平,中证500指数增强组合信息比率提升0.6,中证1000指数增强组合信息比率提升0.8,效果明显。

PPO强化风险模型进一步提升解释能力,且更加稳定。首先,因子生成可视为逐时间步的决策过程,动态适应市场变化,且样本外的在线策略因子逻辑不变; 其次,相比深度学习风险因子异质化,更少牺牲深度学习alpha;最后,相比深度学习更加平衡解释度与相关性,效果进一步提升。在组合优化上,Meta_Master强化学习在沪深300,中证500上信息比率提升0.2,中证1000上信息比率下降0.2.

端到端的LinSAT网络革新了组合优化范式。其核心突破在于将投资约束直接编码至神经网络,通过可微运算实现约束满足。利用Meta_Master模型中最后一层的Encoder与LinSAT网络进行拼接,模型输出为每只股票的持仓权重,并在LinSAT网络中加入行业,市值,及深度风格暴露约束以及个股权重约束(考虑成分股)在沪深300、中证500、中证1000指数成分股中分别训练,超额收益分别打到13.0%、16.6%、17.1%,信息比率最高达3.27,收益弹性提升,跟踪误差略微放大,信息比率显著提升,显著优于之前方法。

强化学习进行组合优化的效果一般。强化学习同样可以将alpha信号与风险因子共同纳入考量,构建投资组合。我们延用PPO算法,重新定义CMDP问题。在输入端加入Meta_Master模型Encoder的输出部分,通过双头网络输出当日的股票持仓与风险因子,在奖励函数中加入收益奖励部分,并约束风险因子与组合持仓的稳定性以及风格暴露等因素, 直接取持仓动作作为交易信号,超额收益与信息比率均有下降,效果欠佳。

量化模型基于历史数据,市场未来可能发生变化,策略模型有失效可能

报告信息:

韵天雨  S0100524120004  yuntianyu@mszq.com

本文来自民生证券研究院于2025年5月6日发布的报告《量化专题报告:深度风险模型与强化风险模型的构建及组合优化》,详细内容请阅读报告原文。

《证券期货投资者适当性管理办法》于2017年7月1日起正式实施,通过本微信订阅号/本账号发布的观点和信息仅供民生证券的专业投资者参考,完整的投资观点应以民生证券研究院发布的完整报告为准。若您并非民生证券客户中的专业投资者,为控制投资风险,请取消订阅、接收或使用本订阅号/本账号中的任何信息。本订阅号/本账号难以设置访问权限,若给您造成不便,敬请谅解。我司不会因为关注、收到或阅读本订阅号/本账号推送内容而视相关人员为客户;市场有风险,投资需谨慎。

免责声明

民生证券股份有限公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司境内客户使用。本公司不会因接收人收到本报告而视其为客户。本报告仅为参考之用,并不构成对客户的投资建议,不应被视为买卖任何证券、金融工具的要约或要约邀请。本报告所包含的观点及建议并未考虑个别客户的特殊状况、目标或需要,客户应当充分考虑自身特定状况,不应单纯依靠本报告所载的内容而取代个人的独立判断。在任何情况下,本公司不对任何人因使用本报告中的任何内容而导致的任何可能的损失负任何责任。

在法律允许的情况下,本公司及其附属机构可能持有报告中提及的公司所发行证券的头寸并进行交易,也可能为这些公司提供或正在争取提供投资银行、财务顾问、咨询服务等相关服务,本公司的员工可能担任本报告所提及的公司的董事。客户应充分考虑可能存在的利益冲突,勿将本报告作为投资决策的唯一参考依据。

加载中...