华泰金工 | LLM-FADT:大模型增强文本选股
(转自:华泰证券金融工程)
在前期研究《人工智能63:再探文本FADT选股》(20221028)的基础上,本文基于开源大模型Qwen3-8b对BERT-FADT策略进行增强,构建效果更为稳定的LLM-FADT策略。该策略利用大模型的“博观”视角,对原始分析师文本进行多角度重构,生成行情催化剂、“言外之意”等具有增量信息的文本,并通过“先训练后合成”方案构建LLM-FADT因子。测试结果显示,LLM增强后的因子表现显著优于增强前,在多头等权组合与Top25增强组合均取得更优业绩。应用案例方面,本文通过修改模型训练标签,定制化构建LLM-FADT Top25沪深300增强组合和LLM-FADT医药行业增强组合,前者年化超额收益率为12.16%,相对基准月胜率为59%,后者年化超额收益率为18.53%,相对基准月胜率为69.00%。
人工智能92:大模型增强下的文本选股策略LLM-FADT
本文在前期报告《人工智能63:再探文本FADT选股》(20221028)的基础上,基于开源大模型Qwen3-8b增强BERT-FADT策略,构建效果更为稳定的LLM-FADT策略。对于多头等权组合和因子增强Top25组合,LLM增强后的策略效果显著优于增强前。与此同时,基于LLM-FADT策略,本文对基于少量成分内股票的沪深300指增组合以及医药行业增强组合进行探索,构建的LLM-FADT Top25沪深300指增组合年化超额收益率为12.16%,LLM-FADT医药行业增强组合年化超额收益率为18.53%(回测区间均为20170126-20250530)。
大模型的文本“博观”视角:大模型对原始文本推理演绎形成增量信息
传统的文本分析往往仅基于原始文本及其固有特征,例如文本可读性、文本复杂度、文本情绪、文本相似性等。而人类作为文本信息的常规受众,对文本分析的基础行为之一是进行个性化的推理演绎,以获取文本中隐含的重要信息,然而这一基本行为却难以被机器模拟。大语言模型或是难得的解决之道,本文利用Qwen3-8b模型对原始分析师文本进行多角度重构,包括标题新解、行情催化剂、“言外之意”、潜在风险、收益指引,以模拟人类阅读文本时的推理演绎过程,构建额外的增量信息。
大模型文本因子:LLM重构原始文本或将带来额外增量信息
本文对大模型文本因子进行逐一对比测试。在因子分层回测方面,分10层测试的情况下,行情催化剂文本分层1绝对收益与超额收益均领先于其余文本,“言外之意”文本分层10则均低于其余文本。在组合回测方面,对各文本因子分层1构建等权组合,行情催化剂文本自2023年起持续跑赢其他文本,潜在风险文本则稳定逊色于其他文本。与此同时,行情催化剂与潜在风险文本与原始文本相关性总体较低,二者相比于原始文本可能具备独特的增量信息。
LLM-FADT组合:多项业绩指标均表现出色,LLM增强后>LLM增强前
本文尝试对不同大模型文本因子进行合成,包括“先合成后训练”与“先训练后合成”两种方案,也即先对文本特征向量取均值还是对训练得到的因子取均值之分。测试结果显示“先训练后合成”方案更优。据此可构建LLM-FADT因子增强Top25组合,该组合相对于中证500基准,年化超额收益率为27.60%,信息比率为2.21,相对基准月胜率为74.26%。基于“先训练后合成”方案,无论是多头等权组合(因子分10层首层等权)还是因子增强组合(多头等权+额外因子增强),LLM增强后的组合业绩显著优于增强前。
应用案例:沪深300少成分股增强组合与医药行业增强组合
对于投资管理人而言,基于少量成分内股票构建指数组合、构建特定行业增强组合皆为常见需求。本文通过修改模型训练标签,定制化构建LLM-FADT Top25沪深300增强组合和LLM-FADT医药行业增强组合,前者年化收益率为13.65%,年化超额收益率为12.16%,相对基准月胜率为59%,后者年化超额收益率为18.53%,年化跟踪误差为12.22%,相对基准月胜率为69.00%,年化双边换手率为3.34。
01 研究导读
“圆照之象,务先博观” ——《文心雕龙·知音》
华泰金工前期以文本FADT为主题,深度探讨基于分析师文本如何构建恰当有效的选股策略,包括《人工智能57:文本FADT选股》(20220701)及《人工智能63:再探文本FADT选股》(20221028)。前期报告的核心思想是以分析师研报文本的语义向量(词频向量或FinBERT隐藏层编码特征向量),以研报发布前后两日个股超额收益为标签,引导 XGBoost模型学习研报文本中蕴含的超额信息。
从模型与策略复杂度上看,人工智能63中BERT-FADT策略下的文本信息提取似乎已趋近极限。从FinBERT模型隐藏层编码提取,到紧随其后的XGBoost模型合成特征,无一不从原始文本到收益匹配发挥了抽丝剥茧的作用。尽管BERT模型已诞生多年,其在文本解析领域似乎仍占尽上风。
然而,回观近期大模型热潮,相比于“老将”BERT模型,以GPT系列模型为代表的生成式大语言模型(Large Language Model,LLM)在热度上展现出压倒性趋势,且其在文本处理任务中似乎独占鳌头。LLM能否对BERT-FADT策略具备额外增强效果?这是本文探究的核心问题。若对比BERT系列模型与以GPT为代表的大模型架构,二者分别利用Transformer的Encoder和Decoder部分,形成Encoder-only和Decoder-only架构,Decoder架构加持下大模型或在文本生成任务中更具优势,这是本文研究思路的出发点。
本文基于开源大模型Qwen3-8b增强BERT-FADT策略,构建效果更为稳定的LLM-FADT策略。具体而言,我们利用Qwen3-8b模型对原始分析师文本进行多角度重构,包括标题新解、行情催化剂、“言外之意”、潜在风险、收益指引共5个角度。基于原始文本与重构文本,我们逐一训练XGBoost模型,最终合并为一个选股因子,这一策略我们称为LLM-FADT。从测试结果上看,LLM增强后的LLM-FADT多头等权组合和因子增强组合累计超额收益持续优于BERT-FADT。
02基于大模型的文本信息提取
文本分析是金融学研究领域运用尤为广泛的分析技术,研究者通过剥离不同维度的文本特征实现对文本的深度解析,包括文本可读性、文本复杂度、文本情绪、文本相似性等等。以往的文本分析强调关注文本固有特征,但对于文本的受众——人类而言,以文本为基础进行个性化的推理演绎是文本解读时最为基础的行为,然而这一基本行为却难以被机器模拟。
大语言模型或许提供了难得且优质的解决方案。以分析师文本为例,原始的分析师研报大抵以精确有效的信息传达为核心目标,然而受限于篇幅、语言组织等方面,抑或是研报受众的个性化需求,对于读者而言,研报中或多或少蕴含着需要额外梳理的信息。我们以某一研报标题及摘要为例,提出多个问题,例如“标题是否聚焦核心信息,是否需要重构”,“内容是否着重凸显行情催化剂”,“原文内容之外隐含哪些信息”,“有无潜在风险尚无明确表达或遗漏”,“对于股票未来收益指引如何”,对于这些问题,大模型可逐一发表见解,见解背后或将尽致体现其“博观”视角。
大模型方面,本文使用通义千问团队近期推出的开源模型Qwen3。从模型测试效果上看,Qwen3-235B-A22B在代码、数学、通用能力上,可与DeepSeek-R1、o1、o3-mini、Grok-3 和Gemini-2.5-Pro等顶级模型相媲美。Qwen3的核心特色是支持多种思考模式,即“快思考”和“慢思考”:“快思考”下模型提供快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题;“慢思考”下,模型会逐步推理,经过深思熟虑后给出最终答案。这种方法非常适合需要深入思考的复杂问题。这种灵活性使用户能够根据具体任务控制模型进行“思考”的程度。
为了兼顾模型效果与运行效率,我们最终选用Qwen3-8B模型。由于研报文本数量较多,思考模式我们限定Qwen3-8B模型为“快思考”状态。
03LLM-FADT构建流程
LLM-FADT构建流程与前期报告《人工智能63:再探文本FADT选股》(20221028)基本一致。具体而言,首先,我们选择前期报告已构建的微调版FinBERT,这里的微调过程指使用带标注的新闻舆情数据对FinBERT进行微调,使得FinBERT可以在测试集上获得较高的预测准确率;接着,使用该模型对研报文本进行语义编码,提取FinBERT的CLS层768维向量作为研报文本语义表达;最后,将上述得到的特征向量作为特征输入给XGBoost模型,训练XGBoost模型并构建因子值。
值得强调的是,输入给微调版FinBERT的研报文本包括6类:原始文本、标题新解、行情催化剂、“言外之意”、潜在风险、收益指引,后5个部分即为大模型对原始文本进行额外解读的视角。FinBERT将以上文本逐一转化为文本特征向量,由此一来,后续的XGBoost模型训练时将获得更为丰富的文本信息输入。
与前期报告一致,我们采用滚动的方式对XGBoost模型进行训练,每次滚动样本内为过去6个月,样本外为未来12个月。例如对于某轮样本外的首月T月来说,我们将T-6至T-1月的数据作为样本内,T月至T+11月的数据作为样本外;下一迭代期则以T+6月至T+11月的数据作为样本内,T+12至T+23月的数据作为样本外;以此类推。
XGBoost模型训练的各项参数选择如下表所示,其中样本内窗口长度指的是每轮训练选用多长的时间区间作为样本内,取值为6个月表示我们选用过去一年的全部盈利预测调整样本作为样本内;样本标签的时间区间表示每条样本中Y的计算区间,T-1~T+1即表示研报发布前1天至后1天。样本外计算因子值的回溯区间表示在样本外每个月月末构建因子值时,选用过去多长时间区间内的样本。例如取值为3个月时,月末我们会追溯过去3个月的全部分析师盈利预测调整的样本,分别计算出文本得分,最后求均值得到个股得分,作为LLM-FADT因子。
对于XGBoost模型,在每次滚动训练时,均采用网格搜索的方式来进行最优超参数的搜索,并采用5折交叉验证的方式对模型性能进行评估。XGBoost的超参数选择范围及其他固定参数如下表所示。
与前期报告一致,本文在构建组合测试时,一种方式是直接以LLM-FADT因子分十层的多头第一层等权重作为组合,可称为多头等权组合;另一种方式是以LLM-FADT因子分十层的多头第一层为基础股票池,使用以下表格中的因子,每月将下述因子进行等权合成,合成之前会对因子进行行业市值中性化处理,同时对因子方向进行调整,最终取排名靠前的25只股票构建组合,这一组合可称为因子增强Top25组合。
04测试结果
不同研报文本效果对比
首先,我们从因子分层回测、组合回测等角度对比不同研报文本的效果。我们对不同研报文本形成的因子分10层回测,结果如下表所示。对于分层1收益而言,行情催化剂文本绝对收益与超额收益均领先于其余文本,对于分层10收益,“言外之意”文本低于其余文本。从分层单调性看,由大模型生成的5类文本基本呈现分层1到分层10收益单调下降趋势,显示其作为选股因子具备一定有效性。
我们取不同研报文本形成的LLM-FADT因子多头(分10层的首层)构建等权组合。以中证500指数为基准,从累计超额收益曲线上看,2023年起各组合分化加剧,行情催化剂文本自2023年起持续跑赢其他文本,潜在风险文本则稳定逊色于其他文本。
从回测绩效上看,行情催化剂文本年化超额收益率和信息比率最高,分别为17.57%和1.86,标题新解文本年化超额收益率和信息比率最低,分别为14.30%和1.62。超额收益最大回撤上,大模型解读文本普遍优于原始文本。
如前文所述,我们利用多种因子对不同文本因子多头(分10层的首层)进行增强,选取Top25构建等权组合。以中证500指数为基准,从累计超额收益曲线上看,行情催化剂文本在2024年9月超额收益出现明显跃升,跑赢其他文本组合,标题新解文本则长期跑输其他文本。
从回测绩效上看,对于不同文本因子多头构建的因子增强Top25组合,行情催化剂文本年化收益率、年化超额收益率和信息比率仍旧最高,分别为25.64%、27.36%和2.19,标题新解在年化收益率、年化超额收益率和信息比率三项指标上表现最差,分别为17.56%、19.01%和1.74。相对基准月胜率指标上,收益指引文本胜率最高,为75.25%。
对比不同文本因子的相关性,潜在风险文本因子相对于其他因子普遍较低,在0.5左右,标题新解、“言外之意”和收益指引均与原始文本相关性较高,在0.7左右,而行情催化剂与原始文本相关性较低,在0.6左右。总的来看,不同维度文本相比于原始文本可能具备独特的增量信息。
文本信息合成:先合成后训练or先训练后合成?
大模型基于原始文本共生成5类增量文本,直观的合成方式包括两种:(1)先对6类研报文本的FinBERT隐藏层特征向量取均值,再训练XGBoost模型获得因子原始值;(2)对6类研报文本单独训练各自的XGBoost模型,再将对模型预测结果取均值,获得因子原始值。
我们对这两种合成方式合成的因子进行分层回测,结果如下图所示。相比于“先训练后合成”,“先合成后训练”所得因子的分层回测单调性更优,不同层次间的区分度较为明显。而“先训练后合成”因子的多头(分层1)与空头(分层10)则明显优于“先合成后训练”,其分层1的绝对收益与超额收益也远高于其余分层。
LLM增强前后效果对比与LLM-FADT组合
基于“先训练后合成”所得的文本因子,我们称为LLM-FADT因子,对其与BERT-FADT因子分别构建两种投资组合。一种是多头等权组合,即使用LLM-FADT因子分十层的首层因子构建等权重组合;另一种是在LLM-FADT因子的基础上,利用基本面、技术面和市值因子进行增强,选择排名靠前的25支个股构建因子增强Top25组合。
对比BERT-FADT和LLM-FADT因子构建的多头等权组合,结果如下图。从累计超额收益上看,LLM增强后的LLM-FADT多头等权组合持续优于BERT-FADT多头等权组合,LLM增强效果显著,LLM增强前后净值比总体稳定上升,仅在2021年7月至2022年8月存在回撤。从策略回测绩效上看,LLM增强后的多头等权组合在多项指标上均优于LLM增强前的组合,包括年化收益率、年化超额收益率、信息比率、相对基准月胜率等。
对比BERT-FADT和LLM-FADT因子构建的因子增强Top25组合,结果如下图。对于累计超额收益,LLM增强后的组合稳定优于LLM增强前的组合。LLM增强前后净值比先上升后下降,可能是由于组合成分股过少导致。因子增强Top25组合回测绩效方面亦是如此,LLM增强后组合在年化收益率、年化超额收益率和信息比率等指标上显著高于LLM增强前的组合。
为验证因子增强Top25组合中,LLM增强前后净值比后期下降由成分股数量导致,我们构建因子增强Top50组合和因子增强Top100组合,随着组合数量的增加,可以看到后期净值比下降的趋势减缓甚至转而上升,表明LLM的增强效果需要一定数量的成分股才会体现地更为明显。
对比因子增强Top25组合与基准中证500指数,累积超额收益较为稳健,最大超额回撤时点位于2024年2月7日,为22.64%,随后组合短期内迅速修复大部分回撤。从逐月超额收益上看,组合超额收益仍较稳健,正超额月份数目居多,从2017年至今每年超额收益均为正,截至2025年5月30日,组合超额收益为5.49%。
05应用案例
“少即是多”:沪深300指数基准增强组合
对于投资管理人而言,利用较少的成分内股票追踪特定指数是最为常见的需求之一。如前文所示,利用LLM-FADT因子与基本面等增强因子构建的因子增强Top25组合超额表现较为稳健,且持股数量仅有25支,较为符合上述需求。
我们以沪深300指数为基准,对以少量成分内股票构建指数增强组合的需求进行测试,构建因子增强Top25组合。值得强调的是,对于该场景下的LLM-FADT策略构建,我们调整XGBoost模型学习的标签为个股相对沪深300指数的异常收益,以此提升LLM-FADT因子针对沪深300指数的增强效果。
从回测结果上看,LLM-FADT Top25沪深300增强组合总体可持续跑赢沪深300指数,其年化收益率为13.65%,年化超额收益率为12.16%,相对基准月胜率为59%。
医药行业增强:中证医药卫生指数基准增强组合
除了利用少量成分内股票跟踪特定指数外,行业指数增强也是投资管理人的常见需求之一。我们选定中证医药卫生指数为基准,构建行业增强组合。与上一场景类似,构建LLM-FADT策略时,我们将XGBoost模型学习标签调整为个股相对中证医药卫生指数的异常收益。
与上一场景不同,对于行业增强场景,我们引入组合优化方案,以确保增强组合成分股多数来源于中证医药卫生指数,同时追求最大化预期收益和换手等约束条件。
从回测结果上看,增强组合相对基准指数总体能够较为稳定地搏取超额收益,LLM-FADT医药行业增强组合年化超额收益率为18.53%,年化跟踪误差为12.22%,相对基准月胜率为69.00%,年化双边换手率为3.34。2017年至今,该组合年超额收益均为正,截至2025年5月30日,组合超额收益为4.92%。
06总结
本文利用大语言模型对分析师文本选股模型进行效果增强。基于华泰金工前期报告《人工智能63:再探文本FADT选股》(20221028)中的BERT-FADT策略,本文利用Qwen3-8b模型对原始分析师文本进行多角度重构,包括标题新解、行情催化剂、“言外之意”、潜在风险、收益指引。背后的逻辑在于人类对文本分析的基础行为之一是进行个性化的推理演绎,以获取文本中隐含的重要信息,而这一基本行为却难以被除大模型以外的机器或模型模拟。通过大模型模拟人类阅读文本时的推理演绎过程,为模型提供额外的分析师文本增量信息,此方案下构建的LLM-FADT组合,显著优于未被增强的BERT-FADT组合。
从大模型重构文本各自的特征上看,不同类型文本各具特色。行情催化剂文本分10层回测分层1绝对收益与超额收益均领先于其余文本,而“言外之意”文本分层10则均低于其余文本。行情催化剂与潜在风险文本与原始文本相关性总体较低,标题新解、“言外之意”、收益指引与原始文本相关性偏高。从合成后的因子表现上看,LLM-FADT因子带来了更为稳定且更具优质的超额收益,这为重构文本的增量信息提供了佐证。
本文亦尝试基于LLM-FADT探索恰当的应用案例,包括沪深300少成分股增强组合与医药行业增强组合的构建。沪深300少成分股增强组合与医药行业增强组合分别反映投资管理人的个性化需求,即利用少量成分内股票跟踪指数表现并带来超额,以及对特定行业指数进行增强。本文分别为这两个场景定制化构建LLM-FADT Top25沪深300增强组合和LLM-FADT医药行业增强组合,从测试结果上看,LLM-FADT Top25沪深300增强组合年化收益率为13.65%,年化超额收益率为12.16%,相对基准月胜率为59%,LLM-FADT医药行业增强组合年化超额收益率为18.53%,年化跟踪误差为12.22%,相对基准月胜率为69.00%,年化双边换手率为3.34。
参考文献
Yang, A., Li, A., Yang, B., Zhang, B., Hui, B., Zheng, B., ... & Qiu, Z. (2025). Qwen3 technical report.arXiv preprint arXiv:2505.09388.
沈艳, 陈赟, & 黄卓. (2019). 文本大数据分析在经济学和金融学中的应用: 一个文献综述.经济学 (季刊), 18(4), 1153-1186.
风险提示:
大模型是海量数据训练获得的产物,输出准确性可能存在风险;不同大模型效果存在差异,需谨慎选择;非本地大模型处理敏感数据或有信息泄露风险;通过机器学习模型构建选股策略是历史经验的总结,存在失效的可能。人工智能模型可解释程度较低,使用须谨慎。