每周学点——从因子到策略
富善投资
来源:富善投资
1.从因子到策略:构建预测型量化模型
单因子策略是指将一个独立的因子转化为交易信号,然后根据该信号来进行交易决策。这种策略的优点在于简单明了,易于归因。单因子策略的主要缺点是通常不够稳定,风险较为集中。因此,一般会将单因子策略纳入策略池进行组合管理。
多因子策略则是将多个因子组合构造成策略,旨在降低风险并增加收益的稳定性。构建多因子策略通常采用两种主要方法:打分法和回归法。在打分法中,首先将每个因子的值转化为交易信号,通常是将因子值映射为离散信号(如-1、0、1)。然后,对这些信号进行加权求和,如果总和超过某个阈值,就会产生交易信号并执行交易。打分法的优点在于它简单、参数较少,并且通常效果不错。然而,它存在一个问题,即确定不同信号的权重通常涉及到较强的主观性。
相对于打分法,回归法更为灵活和准确。在回归法中,因子值被视为自变量,目标是通过回归模型预测证券或资产的回报。这种方式使模型不仅可以考虑每个因子的权重,还可以捕捉因子之间的相关性和非线性关系。回归法通常需要更多的数学和统计知识,但它可以减少对因子权重的主观偏见。
机器学习为回归法提供了更多的模型选择,但更为重要的是如何有效地评估这些模型的性能。在机器学习中,最常见的评估方式是使用"train-test"架构,即将数据集划分为训练集和测试集。然而,在量化领域,金融数据通常不满足独立同分布(IID)的假设,因此传统的"train-test"方法存在较大的过拟合风险。这种架构下得到的“好”模型可能只是数据的巧合。("IID"的重要性:只有在数据满足独立同分布的情况下,才能认为样本是总体的无偏抽样,模型在样本上学到的规律在样本外才具有适用性。因此,IID是机器学习算法有效的前提。)
此外,机器学习中通常会将数据集的顺序打乱后进行模型训练,但在量化研究中,这种做法同样不适用。因为金融数据在时序上存在自相关性,即当前时刻的数据可能与未来时刻的数据存在关联。如果在训练中将数据集顺序打乱,就相当于将未来数据引入到模型的训练中,可能导致信息泄漏问题。因此,在量化研究中,机器学习算法建议采取逐周期滚动的训练和预测方式,即按照时间顺序逐步前进,每个周期内使用过去数据进行训练,并用模型预测未来的数据。这种方法更符合金融数据的特殊性,可以有效地避免过拟合和信息泄漏的问题。
在回归法的模型选择部分,可以根据因子数量和模型复杂度,将回归法的应用分为下图中的四种组合。通常情况下,随着模型复杂度和因子数量的提升,过拟合的风险也会随之增加,同时模型的解释性可能会下降。因此,尽管当前大模型和大数据思维占据主导地位,我们仍然重视简单模型和少量因子的组合,同时谨慎处理复杂组合。通过有效管理多个“小而精”的模型,可以在提高解释性的同时实现出色的绩效。
(注: 上图给出的只是理论评估,实际可以通过多种技术改善复杂模型的表现)