中金：一种结合自注意力机制的GRU模型

中金点睛

2025.07.1507:39

关注

机器学习模型中有一类模型被称为时间序列模型（简称时序模型）如LSTM，GRU和Transformer等。因为其门控制单元可以更好地同时记忆、集成和理解长期和短期序列上的信息。我们以GRU和Transformer以及其变体为例，探讨此类时间序列模型和不同数据的匹配程度，以及优化此类时序模型的可能的探索方向。我们提出了一种结合轻量化自注意力机制的GRU模型结构：AttentionGRU(Res)，实现兼顾Transformer的序列学习能力与样本外稳定性。

Abstract

摘要

时间序列模型的特殊之处

时间序列模型是专门用于分析和预测按时间顺序排列的观测值序列的统计或机器学习方法，LSTM、GRU和Transformer代表了深度学习在时序建模领域的核心架构演进。LSTM通过门控机制（遗忘门、输入门、输出门）和细胞状态设计，有效解决了长期依赖问题，但其计算复杂度较高。

GRU作为早期优化变体，采用更新门与重置门的精简结构，在保持长期记忆能力的同时显著提升运算效率，更适用于实时性要求较高的预测场景。Transformer则通过自注意力机制和位置编码实现了序列建模范式的革新，其并行化架构在分析多维时序数据时展现出明显优势。

时间序列模型更适配时序因子吗？

GRU这类时间序列模型的优势之一在于可以实现端到端收益率预测[1]，我们系统性测试了中金量化策略开发的日度价量和日内高频共159个截面因子和158个时序因子（Qlib alpha158）在基础时序模型上的表现和不同模型的运行效率，我们发现虽然截面因子各方面效果优于时序因子，但在RNN、LSTM等基础模型中，输入相同数量的时序因子，样本外表现比同等条件下截面因子的表现更好。

从159个截面因子和158个时序因子的单因子表现来看，时序因子ICIR均值高于截面因子，但分布较分散；从收益率角度，截面因子11%的多空和2%的多头超额远高于时序的1%和-6%的多空与超额收益；成本端来看截面因子相较来说换手率更低，多头超额的最大回撤也明显更小。

而当将上述两大类多因子分别输入经典时序模型RNN、LSTM和GRU中时，我们发现虽然时序单因子总体效果弱于截面因子，但时序因子训练出来的三种模型样本外表现明显优于截面因子训练的模型样本外表现。输入时序因子的模型样本外ICIR均值1.02，约为截面因子时序模型的两倍；时序因子的模型多头超额样本外均值7.6%，输入截面因子的时序模型多头超额仅1.3%。

借用Transformer的优势机制：结合自注意力机制的GRU模型

仅采用传统时序模型的因子合成效果仍有较大提升空间，我们进一步从多种方向测试优化的时间序列模型，主要方向有：对于时间序列传播方向的调整、对于门结构的优化以及整体结构组合的优化，我们选取三种方向的代表模型分别为BiGRU、GLU和Transformer等模型。

从样本外的测试结果来看，本文选取的BiGRU和GLU相对原GRU模型提升有限；在测试Transformer时我们发现样本内效果非常显著，即模型可以更好地学习到该时序因子的重要特征，但样本外的效果持续下降。我们推断可能是由于Transformer结构本身的参数量显著更大，过拟合现象较为严重。

为了获得Transformer的解析序列的优秀能力，同时减轻其庞大参数结构的负担，本文提出一种通过结合Transformer的简单自注意力结构、残差前馈网络结构（Res）和GRU的AttentionGRU(Res)模型。我们发现这种结合同时对于模型的收益和稳定性提升会更有帮助。在全市场中该模型的全样本相对于标的收益率等权的年化超额收益超30%，近5年滚动样本外年化超额收益为12.6%；模型中证1000股票范围内选股能力的泛化性也较强，直接应用在中证1000中的年化超额收益率达10.8%。

风险

本文所有结果均基于历史数据测试，不代表未来表现。当模型版本、底层数据及测试区间等外部条件发生变化时，测试的结果可能也会有相应变化。

Text

正文

时间序列模型天然更适匹配时序因子

时间序列模型的特殊结构

时间序列模型如RNN在处理序列数据时具有天然适配性，其网络结构和运算机制与时间序列因子的内在特性高度吻合。RNN通过循环连接在神经元内部保留历史状态，这种自反馈结构使模型能够有效捕捉数据点之间的时序依赖关系，恰好匹配时间序列因子中当前值与历史值存在动态关联的特性。但RNN由于其循环直连结构很容易造成梯度的爆炸和消失，因此后续时间序列模型由于其特殊的门结构的存在，缓解了RNN结构长序列的梯度消失和梯度爆炸的问题，从而可以保留历史较长序列前的特征。

RNN之后的时序模型网络中的门控机制（如GRU的更新门和重置门）可智能调节历史信息的保留与遗忘比例，实现对因子波动特征的自适应学习。随着序列位置移动时参数的时序共享机制，时序模型能够在降低参数量的同时保持对持续性趋势的识别能力，这与时间序列因子通常具有的延续性特征形成结构性对应。这种架构对时间序列因子的信息提取非常有效，能够直接利用连续时间步的内在关系提升预测性能。

从模型结构上来说，时序模型更加匹配的是时序的因子。我们将在这一部分从实验的角度来测试截面因子和时序因子在时序模型上的表现。时间序列因子顾名思义就是仅用单个标的的价量时序指标计算而来。我们选用了微软亚洲研究院发布的量化开源框架中Qlib中提供的Alpha158。Alpha158包含了158个基本的时间序列计算因子。

图表：中金量化日度因子与时序因子

资料来源：中金公司研究部

我们首先统计了我们的基础因子库在2018-01-01到2025-06-30这段时间内进行月度回测的因子特征，主要包括ICIR、多头年化超额收益率、换手率和多头超额回撤等指标。日度价量和高频价量截面因子的多头年化超额收益率相较于时序来说明显更高，换手率更低，最大回撤也相对最小。

图表：两类因子ICIR对比

注：测试区间为2018-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：两类因子多头年化超额收益率对比

注：测试区间为2018-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：两类因子单边换手率箱状图

注：测试区间为2018-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：两类因子多头超额最大回撤箱状图

注：测试区间为2018-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

时序模型在时序因子上表现更强

尽管从基础表现上来看截面因子的各项基本统计结果都优于Alpha158因子集，但经过基本测试发现Alpha158在时间序列上训练得到的样本外表现比截面因子要更优。

我们将RNN和LSTM模型作为基准模型进行测试，发现从因子的有效性和稳定性来看，纯时序的因子的表现总体强于截面的因子表现。我们将上述两大类多因子分别输入经典时序模型RNN、LSTM和GRU中时，我们发现虽然时序单因子总体效果弱于截面因子，但时序因子训练出来的三种模型样本外表现明显优于截面因子训练的模型样本外表现。输入时序因子的模型样本外ICIR均值1.02，约为截面因子时序模型的两倍；时序因子的模型多头超额样本外均值7.6%，输入截面因子的时序模型多头超额仅1.3%。

图表：截面和时序因子在时序模型上的表现

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：时序模型环境下，时序因子相较于截面因子拟合IC更优

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：时序模型环境下，时序因子相较于截面因子的超额收益更优

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

时序模型的优化方式

对于门结构与信息流方向的优化：GLU与BiGRU

时间序列模型的关键元素是模型中的门结构，GRU本身就是对LSTM门结构的一种轻量化优化。此外还有其他多种基于门控结构的优化模型，如门控线性单元（Gated Linear Unit,GLU）和双向门控循环单元（Bidirectional Gated Recurrent Unit, BiGRU）等。

改进门结构和信息方向的模型表现

BiGRU和GLU对于GRU本身的表现提升较为有限，BiGRU的ICIR相对GRU标准模型样本外提升0.01，多头超额提升约2个百分点；GLU的测试结果显示其多头超额相对GRU标准模型有所提升，但ICIR却有所下降。

图表：对于门结构与信息流方向的优化模型样本外测试结果展示

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：对于门结构与信息流方向的优化模型累计IC对比

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：对于门结构与信息流方向的优化模型超额收益对比

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

整体结构组合型优化：加入自注意力和残差结构的GRU模型

Transformer是摒弃门结构的新型序列预测模型，我们首先测试Transformer的效果发现存在一定的过拟合现象，可能是由于Transformer结构本身的参数量相对于GRU类模型的参数量显著更大。而通过结合Transformer的简单自注意力结构、残差前馈网络结构（Res）和GRU的结构，会较大程度轻量化模型，同时又吸纳了Transformer的主要结构的优势。我们发现这种结合同时对于模型的收益和稳定性提升会更有帮助。

图表：全样本内各项结构优化时序模型的表现，Transformer表现最好但过拟合较为严重

注：测试区间为2014-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

图表：样本外使用Attention和Res结构的GRU模型表现提升明显-全市场表现统计

注：测试区间为2020-01-01至2025-06-30，以上测试结果均由模型选取三次随机数种子取均值得到

资料来源：Wind，中金公司研究部

加入残差（Res）结构

Res结构借鉴了Transformer中广泛使用的残差连接的思想，其思想最早起源于ResNet。深度模型训练的一大难题就是梯度的传递。残差连接允许梯度通过捷径直接从输出流回浅层输入，较大程度上改善了深层网络的训练稳定性。由于梯度问题得到缓解，Transformer能够堆叠更多的编码器层和解码器层，获取更强大的表征能力，这正是ResNet的核心目标之一。残差连接确保了原始输入信息不会被后续的复杂变换完全覆盖，有利于模型保留更底层的信息。

Transformer虽然没有直接包含ResNet网络的具体模块，但Transformer的设计明确并系统性地将残差连接（Residual Connection）作为其每一层基本结构的关键一环，这样的结构显著促进了深层Transformer模型的稳定训练。

图表：残差结构示意图

资料来源：Deep Residual Learning for Image Recognition. Kaiming. 2015，中金公司研究部

加入简化自注意力结构

我们进一步创新性地融合了GRU的时序建模能力与简化版注意力机制，其结构精髓在于：以GRU输出的隐藏状态作为值向量(V)，通过全连接网络隐式融合查询向量(Q)和键向量(K)的功能，直接生成注意力分数；这种设计将标准Transformer的QKV三元组简化为单一路径处理，使GRU各时间步的隐藏状态既承担特征计算(V)，又通过注意力网络完成特征重要性评估(QK交互)。多重优势由此显现：计算效率提升的同时保持注意力动态聚焦核心时序节点的能力；参数减少50%仍能通过GRU门控机制有效捕获长期依赖；残差连接与层归一化的协同保障了深层网络训练稳定性；而特征拼接策略有机融合即时状态与全局上下文。

通过样本内外的对比，我们发现Transformer结构在本数据上出现了较为明显的过拟合现象。因此我们考虑仅使用Transformer中的单头注意力结构和残差网络结构，并于GRU进行连接，我们将该结构称为AttentionGRU(Res)结构。

图表：本文提出的AttentionGRU(Res)结构示意图

资料来源：中金公司研究部

结合自注意力和残差结构的GRU表现

AttentionGRU(Res)模型可以较大程度缓解Transformer模型的庞大参数问题，同时又吸纳了Transformer的自注意力结构解析序列的优秀能力。我们发现这种结合同时对于模型的收益和稳定性提升会更有帮助。在全市场中该模型的全样本相对于标的收益率等权的年化超额收益超30%，近5年滚动样本外年化超额收益为12.6%。

图表：使用Attention和Res结构的GRU模型表现提升明显-全市场表现统计