新浪财经

【广发金工】如何使用DeepSeek提高投研效率

市场投研资讯

关注

(来源:广发金融工程研究)

DeepSeek和各类大语言模型:近年来,人工智能技术的快速发展推动了大语言模型(Large Language Models, LLMs)的革新。作为最前沿的技术之一,大语言模型正在广泛应用于各行各业。例如2025年火遍全网的DeepSeek就是最先进的大语言模型代表之一,它不仅可以充当聊天机器人的角色,同时还展现出强大的复杂问题推理能力,拥有巨大的应用前景与潜力。

金融行业作为一个高度依赖数据分析和信息处理的领域,对先进的人工智能技术有着极大需求。LLMs凭借其强大的文本理解能力、信息提取能力以及推理和预测能力,在多个金融场景中具有重要应用价值。例如,在投资分析领域,可辅助分析师快速处理海量信息,识别市场趋势;在风险管理方面,能够实时监测潜在风险因素;在客户服务中,可提供智能化的投资咨询和财务规划建议;在合规监管方面,有助于自动化文档审查和异常交易检测。随着技术的不断进步,LLMs在金融领域的应用深度和广度将持续扩展,推动行业朝向智能化发展。

本文框架:为了帮助读者更好地了解各类LLMs以及LLMs将如何赋能金融行业,本文参考了截至目前的最新研究论文,对各类大语言模型及其在金融领域的应用进行介绍.

在第一、二章中,本文结合文献中的应用实例,对DeepSeek及GPT、BERT、T5、ELECTRA、BLOOM、Llama等通用大语言模型,以及 Ploutos、FinBERT、BBT-Fin、FLANG、BloombergGPT、FinLlama等金融大语言模型进行介绍。

在第三章中,本文结合基于DeepSeek的实际例子与文献应用,进一步对大语言模型在语言任务、情感分析(如市场情绪分析)、时序分析(如股价走势分析)、金融推理(如资产配置建议)、代理建模(如市场竞争模拟)等金融领域的应用进行介绍。

在第四、五章中,本文罗列了大量的相关开源数据、代码和基准,并总结了大语言模型在金融领域中的应用机会与挑战。

近年来,人工智能技术的快速发展推动了大语言模型(Large Language Models, LLMs)的革新。作为最前沿的技术之一,大语言模型正在广泛应用于各行各业。例如2025年火遍全网的DeepSeek就是最先进的大语言模型代表之一,它不仅可以充当聊天机器人的角色,同时还展现出强大的复杂问题推理能力,拥有巨大的应用前景与潜力。

金融行业作为一个高度依赖数据分析和信息处理的领域,对先进的人工智能技术有着极大的需求。而LLMs凭借其强大的文本理解能力、信息提取能力以及推理和预测能力,正在逐步改变传统的金融分析和决策方式,为投资管理、市场分析、风险控制等多个领域带来了新的机遇。

LLMs在金融领域的应用潜力是巨大的。首先,LLMs能够处理海量的非结构化数据,如新闻报道、社交媒体、企业财报和政策文件等,从而帮助投资者更快地获取关键信息。其次,LLMs还具有强大的情感分析能力,可以识别市场情绪变化,为投资决策提供重要参考。此外,随着技术的发展,LLMs甚至逐渐展现出对金融数据进行推理和做出复杂决策的能力。然而,尽管LLMs在金融领域展现了众多优势,其应用仍面临诸多挑战。例如金融数据的真实性和可靠性,模型的可解释性和透明度,数据隐私和合规性,以及模型在高风险环境下的稳健性等等。因此,如何在金融领域中高效地应用LLMs,且克服其局限性,是当前学术界和产业界重点关注的问题。

为了帮助读者更好地了解各类LLMs以及LLMs将如何赋能金融行业,本文参考了截至目前的最新研究论文,对各类大语言模型及其在金融领域的应用进行介绍,整体框架如下图1所示。

在第一、二章中,本文结合文献中的应用实例,对DeepSeek及GPT、BERT、T5、ELECTRA、BLOOM、Llama等通用大语言模型,以及 Ploutos、FinBERT、BBT-Fin、FLANG、BloombergGPT、FinLlama等金融大语言模型进行介绍。

在第三章中,本文结合基于DeepSeek的实际例子与文献应用,进一步对大语言模型在语言任务(如企业年报分析)、情感分析(如市场情绪分析)、时序分析(如股价走势分析)、金融推理(如资产配置建议)、代理建模(如市场竞争模拟)等金融领域的应用进行介绍。

在第四、五章中,本文罗列了大量的相关开源数据、代码和基准,并总结了大语言模型在金融领域中的应用机会与挑战。

大语言模型(Large Language Models, LLMs)在本质上是一种基于深度学习的人工智能技术,通过海量数据来训练具有大量参数的模型,最终使得模型具有一定的文本生成、理解与推理能力。大语言模型在近年来的发展历程可如下图2概括。

早期的语言模型主要基于统计方法(如n-gram模型),通过计算词序列的局部共现概率预测下一个词。这类模型依赖马尔可夫假设,仅考虑有限上下文,存在数据稀疏性和长距离依赖问题。尽管技术简单,但为后续神经网络模型奠定了基础。

21世纪初,随着深度学习兴起,基于循环神经网络(RNN、LSTM、GRU等)的语言模型开始取代统计方法。其核心创新在于通过嵌入(Embedding)将词语映射到连续向量空间,捕捉语义和句法特征。然而,循环神经网络的串行计算结构限制了长文本建模能力。

直到2017年Google提出Transformer架构,其注意力机制(Attention)彻底改变了语言模型的设计。注意力机制允许模型并行计算全局上下文依赖关系,突破了循环神经网络的串行计算瓶颈。基于此,2018年OpenAI的GPT-1和Google的BERT分别提出单向自回归(生成任务)和双向上下文编码(理解任务)的预训练范式,标志预训练语言模型(Pre-trained Language Models,PLMs)时代开启。2020年前后,以GPT-2、GPT-3和T5为代表,模型参数规模从亿级跃升至千亿级,并通过无监督预训练和任务适配微调的框架实现多任务能力。

2023年后,以GPT-4、PaLM-2等模型为标志,LLMs逐步融合多模态输入(文本、图像、音频),并探索思维链推理(Chain-of-Thought)和指令对齐(Instruction Tuning)等高级能力。在技术原理上,通过人类反馈强化学习(RLHF)对齐模型输出与人类价值观,同时引入混合专家模型(MoE)提升训练效率。此阶段目标已从单纯语言建模转向通用人工智能(AGI)的初步探索。

2025年,DeepSeek发布了R1-Zero和R1。其中,R1-Zero完全依靠强化学习进行训练,没有经过监督微调,模型自行涌现出推理能力,在数学、代码和自然语言推理等任务上表现出色。R1则在强化学习之前,先加入了冷启动数据进行监督微调,让模型从一开始就具备基础的语言和推理能力,之后再用强化学习进行优化,显著提升了模型的可读性和语言一致性,同时保持了强大的推理能力。此外,DeepSeek还开源了一套精简模型,通过“模型蒸馏”的方法,针对资源受限的环境(如边缘计算平台)进行了优化。这些模型保留了可扩展性和成本效益,进一步扩展了LLMs适用环境,使高级AI可用于各种用户设备。此外,DeepSeek R1以极低的成本实现了这一突破,展现出了卓越的性价比。

(一)DeepSeek系列模型

DeepSeek系列模型是一类基于Transformer架构的大语言模型,同时使用了Grouped Query Attention(GQA)和FlashAttention 2技术进行优化。这些技术优化了GPU使用,改善了推理速度,其核心的注意力机制公式如下:

同时,Rotary Positional Embeddings(RoPE)技术增强了DeepSeek中的位置编码,将相对位置信息通过旋转转换嵌入到和中,这使得DeepSeek可以处理非常长的Tokens序列。

本文接下来将简要介绍DeepSeek各系列模型。

1. DeepSeek 7B

DeepSeek 7B是一个拥有70亿参数的通用语言模型,基于预归一化、仅包含解码器的Transformer架构,采用RMSNorm归一化和SwiGLU激活函数,适用于推理、编程和文本生成等任务。它包含30层Transformer、32个注意力头和4096的隐藏维度,并支持通过RoPE调整的4K到32K上下文窗口。其更大版本DeepSeek Chat拥有670亿参数、95层Transformer、64个注意力头和8192的隐藏维度,专为复杂对话场景设计。两者均采用RoPE和GQA技术,以提升位置编码和注意力机制的效率。

2. DeepSeek MoE-16B

DeepSeek MoE-16B是一款基于混合专家架构(Mixture of Experts, MoE)的高效语言模型,总参数量达到160亿。其通过动态路由机制,每Token仅激活16个专家网络中的2个,实际激活参数量为26亿。这种稀疏激活的设计显著降低了计算成本,相比同等规模的稠密模型,推理成本减少了70%,同时保持了卓越的性能表现。该模型在预训练阶段使用了涵盖代码、数学和通用文本的多样化高质量数据集,特别注重专家网络的专业化分工,使其在代码生成、数学推理等复杂任务中表现出色。此外,该模型还通过高效的资源分配和动态路由优化,实现了计算效率与模型性能的平衡,为大规模语言模型的部署和应用提供了一种高性价比的解决方案。其设计理念不仅降低了硬件需求,还为未来AI模型的规模化发展提供了新的方向。

3. DeepSeek V2

DeepSeek V2系列包括DeepSeek V2和DeepSeek V2 Lite两个主要模型,以及两款聊天机器人。DeepSeek V2总参数量达2360亿,包含60层网络,支持128K的上下文长度。该系列模型采用MLA(低秩近似)和MoE(混合专家)框架,显著降低了内存占用,同时保持了深度的上下文理解能力。该模型在8.1万亿Tokens的数据集上进行了预训练,并通过YaRN技术将上下文窗口从4K扩展到128K。此外,DeepSeek V2系列经过了120万条实例的有用性监督微调和30万条实例的安全性监督微调,形成了未发布的DeepSeek V2 Chat(SFT)。该模型还通过双阶段强化学习来进一步优化:第一阶段专注于数学和编程任务,使用基于编译器反馈和真实标签的奖励模型;第二阶段则针对有用性、安全性和规则遵从性,利用基于人类偏好和手动编程的三类奖励模型进行训练。这一系列设计使得DeepSeek V2在高效计算和强大性能之间取得了平衡,适用于复杂任务和大规模应用场景。

4. DeepSeek V3

DeepSeek V3是一款基于稀疏混合专家(MoE)架构的大语言模型,总参数量高达6710亿。其通过动态路由机制,每任务仅激活370亿参数,显著提升了计算效率并降低了成本。该模型在14.8万亿Tokens的多语言语料库上进行了预训练,并引入了多Tokens预测(MTP)技术,增强了其在复杂语言和推理任务中的表现。其路由系统包含1个共享专家和256个路由专家,通过动态偏置调整机制确保专家利用率的平衡,从而提高了扩展性和可靠性。

然而,DeepSeek V3也面临一些尚待优化的问题,例如对高端硬件的依赖、动态路由的复杂性以及长上下文处理中可能丢失细节的问题。为了应对这些限制,下文介绍的DeepSeek R1-Zero和R1作为改进版本,进一步优化了架构设计,降低硬件需求、简化路由复杂性并提升长上下文处理能力,为更广泛的用户提供高效且可靠的AI解决方案。DeepSeek V3及其衍生版本代表了大语言模型在高效计算与强大性能之间取得平衡的重要进展。

5. DeepSeek R1-Zero

先前的LLMs严重依赖大量监督数据来提高模型性能。而在本研究中,DeepSeek团队证明,即使不使用监督微调,大规模强化学习也可以显著提高模型的推理能力。具体来说,作者在大模型上改进了传统强化学习的近端策略优化算法(Proximal Policy Optimization, PPO),提出了群组相对策略优化算法(Group Relative Policy Optimization, GRPO),显著改善了标准强化学习训练中的计算成本问题,其优化目标如下:

其中是问题,是模型基于旧策略的回复,和是超参数,是优势函数。GRPO算法放弃了传统的价值函数估计方法,转而使用一组标准化奖励作为优势。

此外,GRPO算法的奖励模型也放弃了传统的结果或过程奖励,而是直接使用准确率奖励或格式奖励。准确性奖励确保回答正确,通过诸如验证数学解是否符合所需格式或代码是否通过指定测试等确定性检查来实现。格式奖励则通过要求推理和答案必须在和标签内进行格式化,来施加结构化推理。这样的奖励模型可以以更直接的方式评估模型的回答是否正确、格式是否清晰。

DeepSeek R1-Zero的训练不进行额外的监督微调,而是直接采用强化学习进行优化。在训练过程中,模型会从旧策略生成多个候选答案,并通过基于规则的奖励模型进行评估。随后,模型通过GRPO算法调整策略,使其生成更优解。在这个过程中,DeepSeek R1-Zero逐步发展出自我验证、反思以及长链推理等能力,最终在数学、代码等推理任务上表现卓越。然而,由于缺乏监督微调,DeepSeek R1-Zero的可读性较差,并存在语言混杂问题。因此后续的DeepSeek-R1版本在强化学习训练前引入了冷启动数据(Cold Start Data)进行初步微调,以提升可读性和通用性。

6. DeepSeek-R1

为了解决纯强化学习训练造成的模型缺陷,DeepSeek-R1的训练过程采用了一种多阶段强化学习结合监督微调的方法,目的是提升模型的推理能力,同时保证输出的可读性和通用性。

DeepSeek-R1的训练过程可以分为以下四个阶段,分别是冷启动阶段(Cold Start),推理导向的强化学习(Reasoning-Oriented Reinforcement Learning),拒绝采样和监督微调(Rejection Sampling & Supervised Fine-Tuning)以及全场景强化学习(Reinforcement Learning for All Scenarios)。

在冷启动阶段,为了避免直接从基础模型进行强化学习训练的不稳定性,DeepSeek-R1先通过少量高质量的思维链(Chain-of-Thought,CoT)数据进行微调,以便提供一个较好的起点。这些数据的来源包括:少样本提示(Few-Shot Prompting),即用已有的CoT作为示例,引导模型生成推理答案;反思和验证(Reflection & Verification),即让模型生成详细答案,并进行自我检查和修正;以及从DeepSeek-R1-Zero采样可读性较高的回答,并经过人工处理优化格式。这一阶段的目标是提升模型的可读性,让推理过程更清晰,并减少语言混杂等问题。

接下来是推理导向的强化学习阶段。在冷启动之后,DeepSeek-R1进行强化学习训练,专注于提升推理能力。这一阶段主要优化的领域包括:编程、数学、逻辑推理等。这一阶段强化学习的关键改进包括了语言一致性奖励(Language Consistency Reward)。这是由于在DeepSeek R1-Zero训练过程中模型可能会混用多种语言,所以此处采用了语言一致性奖励,计算CoT过程中目标语言占比,以提高可读性。尽管实验发现这可能导致微小的性能下降,但更符合人类的阅读偏好。

然后是拒绝采样和监督微调阶段。当强化学习训练收敛后,模型会用于生成新的监督微调数据以进一步增强模型在写作、角色扮演和其他通用任务中的能力。这一阶段的数据涵盖推理数据(Reasoning Data)与非推理数据(Non-Reasoning Data)。前者是通过拒绝采样(Rejection Sampling)过滤掉低质量的推理路径,只保留正确的解答。同时使用生成式奖励模型(Generative Reward Model)进行筛选,即让DeepSeek-V3进行判断,以确保输出的质量,最后共收集了约60万条推理相关的数据。后者则是复用了DeepSeek-V3的监督微调数据,并使用其CoT进行扩展,共收集了约20万条非推理任务数据。最终,DeepSeek-R1使用80万条高质量数据进行了2轮监督微调。

在最后阶段,作者通过全场景强化学习使得模型在推理任务和用户输入的多样化场景中表现出色。对于推理任务,模型继续使用基于规则的奖励进行优化;而对于通用任务,则引入人类偏好奖励模型,确保回答更加符合用户期望。这一阶段的强化学习训练更关注模型的有用性(Helpfulness)与无害性(Harmlessness)。

经过上述多阶段训练流程,DeepSeek-R1在多个基准测试中取得了优异成绩。例如在MATH-500数学测试中,准确率达到97.3%,略高于OpenAI o1的96.4%。在SWE-bench编码能力测试中,得分为49.2%,也略高于OpenAI o1的48.9%。这些成绩表明,DeepSeek-R1在推理和编码任务上具备与顶级闭源模型相媲美的能力。此外,DeepSeek-R1在成本效益上也具有显著优势。其开发投资不到600万美元,仅为其他顶级模型训练成本的一小部分。同时,DeepSeek-R1的每百万输入Tokens 价格为0.14美元,远低于ChatGPT 4.0每百万输入Tokens的2.50美元定价。这使得高性能AI技术更具可及性,降低了企业和研究机构的使用门槛。

(二)其他通用大语言模型及金融大语言模型

其他通用领域的LLMs种类繁多,但最著名的仍然是OpenAI公司的GPT系列、Meta公司的Llama系列和Google公司的BERT系列等产品。与此同时,基于通用LLMs开发的金融LLMs也引发了越来越多的关注和研究。这些专用模型通过大量金融数据进行训练,使其能够更好地理解和生成与金融相关的内容。

本节将对其他通用LLMs及金融LLMs进行介绍。

1. GPT系列模型

通用领域最具有代表性的LLMs当属由OpenAI开发的GPT(Generative Pre-trained Transformers)系列模型。GPT模型基于Transformer架构,利用注意力机制来捕捉文本中的长距离依赖关系。其发展历程展现了模型规模、能力和应用场景的不断突破。2018年推出的GPT-1首次将Transformer架构与大规模无监督预训练结合,验证了预训练模型在多项自然语言处理任务中的潜力。2019年,GPT-2通过大幅增加参数规模,展示了更强的文本生成能力和泛化性能,同时也引发了关于AI生成内容潜在风险的讨论。2020年,GPT-3以1750亿参数的规模进一步革新,引入了少样本学习和零样本学习,显著降低了微调需求,推动了通用人工智能的研究。2023年,GPT-4在多模态理解和复杂任务处理上取得突破,其支持文本和图像的混合输入,进一步提升了逻辑推理能力。同年,GPT-4 Turbo通过优化效率和扩展上下文窗口,降低了使用成本并增强了长文本处理能力。2024年,GPT-4o进一步提升了推理效率,为实际应用提供了更高性能的支持。

在金融领域,2024年Ploutos这一基于GPT-4的新型金融LLMs被提出,用于可解释的股票价格走势预测。Ploutos在预测某只股票的价格走势时,多元化策略专家库首先会收集和分析与其策略相关的股票特征。然后,PloutosGPT会根据市场状况和多元化专家的意见,生成看涨和看跌理由,并做出最终决策。下图7例子展示了使用Ploutos进行可解释的股票价格走势预测。

2. BERT

2018年,谷歌提出基于Transformer的双向编码器表示(Bidirectional Encoder Representations from Transformers, BERT),其通过深度双向架构改变了自然语言处理领域。在BERT基础上,FinBERT-19通过对金融文本进行持续预训练来增强其情感分析能力。而后,FinBERT-20改进了这一方法,其利用大规模金融语料库从头开始进行领域专用预训练。2021年,FinBERT-21引入了混合领域预训练策略。通过同时训练通用和金融领域语料库,FinBERT-21旨在捕捉更广泛的语言知识和与金融文本挖掘相关的语义信息。这些Fin-BERT模型在多种金融下游任务中展现出了有效性。除了上述Fin-BERT模型外,RoBERTa是BERT的另一个变体,于2019年推出。Mengzi-BERTbase-fin是RoBERTa的金融专用版本,使用金融新闻和研究报告进行训练。下图8例子展示了使用Mengzi进行特定营销文案撰写。

3. T5

2019年,谷歌推出了文本到文本转换Transformer(Text-to-Text Transfer Transformer, T5)。这是一个通用框架,将各种文本处理任务统一为“文本到文本”的形式。T5采用“编码器-解码器”架构,并通过Span Corruption的自监督学习方法进行预训练,即随机掩码输入文本中的连续片段,并训练模型重建原始内容。基于T5框架,BBT(Big Bang Transformer)-FinT5被开发出来,专门服务于中国金融领域。该模型结合了知识增强的预训练技术,并依托于BBT-FinCorpus——一个包含公司报告、分析师报告、社交媒体和金融新闻等多种来源的大规模金融语料库。BBT-FinT5继承了T5的文本到文本处理能力,能够同时处理金融领域内的语言理解和生成任务。BBT-FinT5可通过微调应用于多种金融场景,如新闻分类、文本摘要、关系抽取、情感分析以及基于事件的问答等任务。

4. ELECTRA

2020年,ELECTRA被提出,其使用“生成器-判别器”框架来进行语言模型预训练。该模型通过训练判别器来区分真实文本和生成文本,显著提升了训练效率。基于这一框架,研究人员开发了FLANG,这是ELECTRA的金融领域专用版本。FLANG引入了选择性令牌掩码和跨度边界目标等优化技术,以更好地应对金融语言的复杂性。FLANG在多种金融下游任务中展现了重要价值,例如精准分析市场报告、准确分类金融新闻标题以及可靠识别关键金融实体。这些能力使其成为金融文本分析中的有力工具。

5. BLOOM

2022年,BLOOM作为一款多语言大模型发布,其拥有1760亿参数,支持46种自然语言和13种编程语言。其开源特性使其在多样性和可访问性上备受瞩目。基于BLOOM,衍生出了多个金融领域专用模型,如BloombergGPT和XuanYuan 2.0。BloombergGPT拥有500亿参数,专为金融领域设计,训练数据来自彭博的金融数据源,在特定金融任务中表现出色。下图9、10中的例子分别展示了使用BloombergGPT生成Bloomberg数据库查询语言和简短标题。

XuanYuan 2.0是针对中国金融市场开发的开源模型,采用混合调优策略,结合通用和金融领域数据,既保留了通用语言能力,又在金融咨询和市场分析等任务中表现出色。下图11、12的例子中分别展示了使用XuanYuan进行财务报表分析和货币供应分析。

6. Llama系列模型

2023年推出的Llama系列模型,参数规模从70亿到650亿不等。尽管规模较小,Llama系列模型在多项基准测试中表现优于GPT-3等更大的模型。其金融衍生版本包括FinMA、Fin-Llama、Cornucopia-Chinese、Instruct-FinGPT和InvestLM等。其中,InvestLM基于LLaMA-65B,专注于投资建议,性能媲美顶尖商业模型。后续发布的Llama 2则进一步优化,包括更大的预训练语料库、更长的上下文窗口和分组查询注意力机制。其金融版本如FinGPT、FinLlama和GreedLlama也相继推出。FinGPT作为开源模型,致力于为金融大模型开发提供透明且低成本的解决方案。2024年4月,Meta推出Llama 3,包含80亿和700亿参数版本,展现出了更强的性能,成为当前最强大的开源大模型之一,预计未来将涌现更多基于Llama 3的金融大模型。

LLMs凭借其卓越的复杂文本理解能力、强大的逻辑推理能力以及高质量的语言生成能力,在金融领域展现出广阔的应用前景。在文本理解方面,LLMs能够精准解析金融报告、新闻公告、社交媒体评论等非结构化数据,提取关键信息;在逻辑推理方面,LLMs可以构建复杂的金融模型,进行风险评估和市场预测;在语言生成方面,LLMs能够自动生成投资分析报告、财务摘要和合规文件。

这些能力使得LLMs在多个金融场景中具有重要价值:在投资分析领域,可辅助分析师快速处理海量信息,识别市场趋势;在风险管理方面,能够实时监测潜在风险因素;在客户服务中,可提供智能化的投资咨询和财务规划建议;在合规监管方面,有助于自动化文档审查和异常交易检测。随着技术的不断进步,LLMs在金融领域的应用深度和广度将持续扩展,推动行业朝向智能化发展。

(一)语言任务

金融领域的语言任务主要是对包含各种金融信息的文档、网站等进行总结提取,并供研究人员参考。LLMs在此方面可以得到很好的应用。本小节以DeepSeek-R1为例进行说明:给它提供了一份某公司年报,提示词为“帮我总结这份年报,归纳它的核心内容”,下图14展示了DeepSeek-R1的部分回答内容。

在回答中,DeepSeek-R1清晰完整地读取了年报中的关键信息,且读取的数据准确无误。在归纳总结时,DeepSeek-R1的回答内容结构清楚,分析了公司财务表现、核心业务进展、发展战略、以及其未来风险等等。这种强大的多模态语言能力可以有效降低投研人员的工作量,帮助人们快速提取数据中的有效信息,以进行更深入的分析。

除去通用LLMs,接下来总结了金融LLMs在语言任务中的应用。

1. 基于文本的工作

早期循环神经网络等模型在文本序列理解和处理任务中展现出了一定能力,但由于架构限制,它们在处理长文本依赖、复杂表达、大规模数据集和非结构化数据时面临挑战。尤其在金融领域,文档量大且需精准摘要,这些局限性尤为明显。

相比之下,基于Transformer架构的LLMs通过注意力机制,显著提升了文本处理能力。LLMs能够有效管理长文本依赖和上下文信息,将复杂的金融叙述简化为精准摘要并提取关键信息,从而克服了早期模型的不足,提升了信息处理效率。

例如,金融LLMs最常见的应用即为文本总结与信息提取。由于金融文档通常篇幅较长,可能超出LLMs的Tokens限制,许多研究通过将长文档分段或使用特定模型来解决这一问题。例如,Yepes等人提出基于文档结构而非段落的分块方法,优化了检索增强生成(RAG)的分块效率。另有研究将长报告分为十个部分(如管理层讨论、财务亮点等)以简化摘要过程。Khanna等人则采用Longformer Encoder Decoder(LED)模型,其注意力机制可扩展至长序列,适合分析长篇金融报告。此外,研究还扩展到多语言和特定领域,包括多语言金融文档摘要、定制化语言模型以适应不同金融术语、多任务学习策略用于金融事件分类与摘要,以及从年报中提取信息以优化股票投资策略。

除了纯文本的金融数据处理外,LLMs的近期研究也展现出了令人印象深刻的多模态数据处理能力。为了解决LLMs在处理包含图像和表格的PDF文档时面临的挑战,一种简单的方法是将PDF转换为机器可读的纯文本。例如,Yue等人提出的自动金融信息提取(AFIE)框架通过PLAIN序列化将表格转换为文本,利用空格和换行符分隔单元格和行,从而将表格数据与常规段落整合供LLMs统一处理。然而,这种转换可能改变文档的空间布局,导致图片或表格中的关键信息丢失。为此,JP Morgan团队开发了DocLLM,这是一种专为多模态文档理解设计的布局感知生成语言模型。DocLLM利用边界框信息理解文档元素的空间排列,并通过修改Transformer的注意力机制,专注于文本与空间模态的交叉对齐,从而提升文档理解能力。

此外,金融LLMs还可以应用于命名实体识别(NER)。NER是信息提取的子任务,在金融领域,NER主要用于从新闻文章、财务报告和市场摘要中提取公司名称、金融术语、股票代码、财务指标和货币价值等特定实体。这些信息对行业分类、情感分析、信用评分、欺诈检测和合规报告等下游任务至关重要。NER方法包括基于规则的方法、传统机器学习技术以及深度学习技术。基于规则的方法依赖于手工编写的语言和语法规则,虽对明确模式具有较高精度,但扩展性有限。传统机器学习技术则虽灵活且能处理多样数据类型,但其依赖标注数据且缺乏可解释性。深度学习方法则利用Transformer等先进架构,从大规模数据集中学习词级和字符级特征,显著提升了模型性能,使其能够捕捉复杂模式和长距离依赖关系。金融LLMs能够利用海量预训练知识和复杂语言理解能力,显著提升复杂金融文本中实体识别的准确性和效率。例如,Hillebrand等人提出了KPI-BERT系统,该系统结合NER和关系提取(RE)技术,识别并关联德国金融文档中的关键绩效指标。该系统基于BERT构建,采用端到端可训练架构,结合RNN和条件标签掩码进行序列实体标注,随后进行关系分类。此外,相关研究还利用LLMs提升可扩展商业报告语言(XBRL)标注效率、识别相似同行公司、检测负面新闻中的关键实体以及提取实体相关短语。但LLMs的缺点在于其训练和推理成本较高,尤其是对于长篇金融文档的处理。为了解决这一问题,Zhou等人提出了UniversalNER模型,通过任务导向的指令微调和目标蒸馏技术,训练高效的学生模型用于开放NER任务。这种方法不仅降低了计算负担,还在无需直接监督的情况下实现了较高的NER准确性。

下图15例子展示了使用KPI-BERT对财务报表中的陈述进行命名实体识别,它能够对命名实体进行自动识别和分类,并链接它们的关系。

2. 基于知识的分析工作

在金融文本分析中,从文档中总结和提取关键信息对于快速理解复杂文本中的核心数据至关重要。在提取相关信息后,下一步是利用这些信息解决下游金融任务。本节将介绍两大核心应用:构建金融关系和文本分类。这些工作对利用提取的信息来提升金融领域的决策和分析能力具有重要意义。

通过知识图谱构建金融关系是一种强大的方法,用于组织和理解从复杂金融数据集中提取的实体及其相互关系。知识图谱由描述实体(对象、事件、人物等)、实体属性及其关系的互联结构组成,为数据中的关系提供了结构化表示,并支持高级分析。在识别和提取实体及其关系后,这些信息可系统化组织为图谱格式。在知识图谱中,实体表示为节点,关系表示为连接节点的边,这种结构为探索和理解金融生态系统中不同实体之间的联系提供了可视化且可编程的方法。通过知识图谱,金融分析师和系统可以利用图分析和机器学习算法来识别模式并预测未来事件。

近年来,研究者探索利用LLMs提取的信息以构建和分析金融领域的知识图谱。例如,Trajanoska等人利用LLMs从可持续发展报告中提取环境、社会和治理(ESG)信息,生成以“节点-边-节点”三元组形式表示的知识图谱,以深入分析企业可持续发展实践。Cheng等人开发了语义-实体交互模块,结合语言模型和条件随机场(CRF)层,自动从券商研究报告中构建金融知识图谱,无需显式金融知识或大量人工规则。此外,知识图谱在信息检索中展现了其价值,尤其是在将自然语言(NL)转换为图查询语言(GQL)方面。Liang等人开发了一种利用LLMs从金融图数据库中生成NL-GQL对的框架,通过自监督方法优化对齐,显著提升了查询效率。下图17、18例子分别展示了使用REBEL和ChatGPT基于新闻文章生成知识图谱。

文本分类在金融领域中对组织和理解大量非结构化数据至关重要,可进一步细分为行业/公司分类和文档/主题分类等子任务。通过有效分类和组织信息,企业和研究者能够提取有价值的洞察并做出明智决策。公司、行业分类涉及根据业务活动和市场表现等共享特征来进行分组。传统方法依赖行业分类系统(如GICS、SIC、NAICS和Fama French模型),但这些系统无法基于相似度对公司进行排序,且需要领域专家进行非常耗时的手动分析。BlackRock团队探索了利用LLMs生成基于SEC文件业务描述的公司嵌入,发现微调的Sentence-BERT模型在行业分类和识别相似公司等任务中表现优异。文档、主题分类是金融文本分类的另一重要子任务,涉及将新闻文章、公司文件等金融文本归类到预定义文档或主题中。Alias等人利用FinBERT模型从马来西亚上市公司年报中提取和分类关键审计事项(KAM)。Burke等人则微调FinBERT模型来对财务报表附注、管理层讨论、分析、风险因素部分进行分类。ESG信息分类是金融领域的另一重要任务,涉及从可持续发展报告、新闻文章和社交媒体帖子中识别和分类ESG相关数据。Lee和Kim提出了一种ESG分类器,通过微调预训练语言模型在韩国公司可持续发展报告数据集上实现了86.66%的分类准确率。下图19例子展示了使用大语言模型从多源文档中提取ESG信息并进行分类。

(二)情感分析

情感分析作为自然语言处理(NLP)领域的重要组成部分,在金融应用中扮演着至关重要的角色。该任务专注于对文本数据中表达的观点、情绪等进行分析,其重要性在金融领域尤为突出,因为准确解读市场情绪能够为预测和决策提供有力支持。随着NLP技术的不断发展,情绪分析的方法也经历了数次演进:从早期基于规则系统,逐步发展为复杂的机器学习模型,到当前基于大语言模型的深度学习方法。

LLMs的出现标志着金融情感分析(FSA)的重大突破。这些模型在多个任务上展现出卓越的能力,并在FSA领域具有多项独特优势。首先,LLMs在金融语言解析方面表现突出,能够准确理解社交媒体、金融博客及专业财报中的口头表达、表情符号、网络用语和行业术语。它们还能识别讽刺、反讽等语言细节,确保情感分析的准确性,适用于从短篇幅推文到完整财报等多种格式。其次,LLMs具备多模态处理能力,可分析文本、图像、音频和视频等数据。例如,在财报电话会议和美联储公开市场委员会(FOMC)会议的分析中,LLMs可结合语音与文本数据,提高情感识别的准确性。这种能力使得LLMs能够整合非语言线索,如语调和肢体语言,以更全面地评估市场情绪。此外,LLMs能够处理超长文本,确保在财报、企业公告和监管文件等金融长文档中,不遗漏任何情感信息。这一特性对于评估企业财务健康状况、管理层信心及投资者情绪至关重要。最后,LLMs在对抗误导性信息方面表现优异。相比传统基于关键词的方法,LLMs具备更强的抗干扰能力,能更有效地检测操纵性语言和误导性情感表达,从而提升情感分析的可靠性。

使用LLMs进行情感分析的对象广泛,例如社交媒体信息、企业财报公告、券商研究报告、政府会议纪要等。本小节仍然以DeepSeek-R1为例来说明通用LLMs如何对报告、公告、新闻等信息源进行情感分析。在前一小节语言任务中提供的企业年报基础上,本小节额外给DeepSeek-R1提供了该公司的近期公告文件,并要求DeepSeek-R1综合分析市场情绪以及股价变动趋势。从下图20中DeepSeek-R1的回答结果来看,其依次分析了该公司的核心利好驱动因素,并进而对市场情绪做出了符合逻辑的分析,并给出了潜在风险与股价走势预测。

1. 社交媒体与新闻信息

社交媒体平台如国外的Twitter、Reddit,国内的贴吧、微博等在线论坛以及同花顺、股吧等金融特定论坛已成为金融领域的情感分析重要数据来源。这些平台可以提供丰富的实时、非结构化文本内容,以反映了公众对金融市场、特定股票以及整体经济环境的情绪。这些平台讨论的即时性和公开性使其成为捕捉市场情绪的宝贵资源,这些情绪可能预示着未来的市场动向。

Su等人利用BERT从Twitter中提取情绪和语义洞察,改进了协方差估计并增强了投资组合优化。此外,Steinert和Altmann使用GPT-4对Stocktwits平台上的消息进行情绪分析,取得了显著优于简单持有策略的收益,这凸显了LLMs通过情感分析预测股价波动的潜力。但是,社交媒体的非正式语言和信息噪声给LLMs带来了挑战。

新闻也是重要的情感分析数据来源之一,它与社交媒体一样具有快速传播和广泛覆盖的特点。新闻内容多来源于声誉良好且成熟的媒体机构,如知名报纸、电视广播公司,以及等金融专业出版物,因此新闻更注重对客观事件的报道,而社交媒体则更带有主观性和个人倾向。在新闻领域,LLMs在新闻头条情感分析方面显著优于早期方法。例如,ChatGPT在预测股票市场回报时,能够准确赋予新闻头条情感分数,并超越GPT-2和BERT等早期模型。此外,Llama2-7B这一开源模型在金融新闻分析中的表现甚至超过了传统BERT方法和LSTM结合ELMo的方法。

2. 公司披露

本小节探讨了金融LLMs在三种主要公司披露中的应用,包括财报电话会议、公司通讯以及监管文件和法律文件。

财报电话会议对于提供公司财务健康状况、战略方向以及管理层对业绩和未来前景的看法至关重要。财报电话会议记录的情感分析能够揭示可能影响投资者决策和市场认知的潜在语气和情绪。Cook等人评估了LLMs在解释财务文本方面的表现,特别关注分析后疫情时代和2023年初银行压力期间的银行财报电话会议的语气和内容。研究表明在银行压力增加期间,银行财报电话会议内容趋向于更加同质化和较少积极情绪,这表明了LLMs在分析财务通讯方面的潜在有效性。

公司通讯包括公司向其利益相关者发布的各种官方声明、新闻稿和公告。这些通讯中嵌入的情绪可以显著影响利益相关者对公司当前状态和未来前景的看法。LLMs可以处理这些通讯以评估情绪并识别潜在的市场动向信息。例如,Kim等人展示了ChatGPT可以通过减少内容长度和放大内容情绪来显著简化和澄清公司披露,同时揭示了财务报告中普遍存在的“膨胀”问题——即过多、冗余或不相关的信息,这可能会掩盖明智投资决策所需的真正洞察。下图21例子展示了使用ChatGPT对财报电话会议进行精炼,以缩减不必要的内容,让投资者关注到财报电话会议中的重点信息。

监管文件和法律文件对于合规、治理和透明度至关重要,提供了关于公司运营、风险和财务状况的大量信息。LLMs可以处理这些复杂文件并识别与情绪相关的信息,如诉讼风险、会计违规和管理层变动。Aparicio等人介绍了BioFinBERT,这是一个经过微调的语言模型,利用对监管文件和法律文件的情绪分析来预测股价变动。

3. 市场研究报告

市场研究报告涵盖了广泛的数据,包括经济指标、行业分析和消费者行为等,对金融领域的明智决策至关重要。分析师报告提供了对市场趋势和潜在投资机会的深刻理解,提供了对证券未来表现的简明评估,为投资者提供了宝贵的指导。使用金融LLMs对上述内容进行分析可以评估市场情绪并做出投资选择。下图22例子展示了使用大语言模型从金融分析报告中提取有用信息并构建投资组合能够取得可观收益。

4. 宏观经济分析

LLMs在宏观经济分析方面也展现出巨大潜力,此时的情绪分析重点在于关注货币政策、相关经济会议以及关键经济指标等,如社会消费品零售总额、工业增加值、失业率、CPI/PPI、GDP增长等。应用LLMs进行宏观经济相关的情绪分析,可帮助投资者更好地理解市场对政策与经济数据的反应,进而优化投资决策。未来研究可进一步探索如何结合新闻报道、市场评论和社交媒体舆情,提升LLMs在宏观经济情绪分析中的精准度和适用性。

(三)时间序列分析

本小节仍然以DeepSeek-R1为例,尝试让其分析股价数据,展示通用LLMs在时间序列分析上的潜力。具体来说,本文提供了一份某公司在2023年至今的日频股票量价数据,并给出相应的提示词“我提供了一支股票的每日量价数据,请根据历史数据帮我分析未来该股票可能的价格走势”。从下图23的回答来看,DeepSeek-R1可以有效分析股票的历史量价数据,并给出相应的未来趋势预测。

1. LLMs与时间序列

近年来,LLMs逐渐被用于时间序列任务。LLMs可以作为辅助工具,利用原始数据之外的更广泛信息来提高时间序列模型的准确性,该模型框架如下图24所示。同时,LLMs还能直接用于时间序列数据建模。其Transformer结构在处理序列任务上展现出极大潜力,使其能够分析和预测时间序列数据。此外,LLMs的多模态能力表明,即使它们主要基于文本训练,也能学习跨模态的推理能力,这为未来的多模态模型奠定了基础。

已有研究表明,LLMs可用于时间序列预测、异常检测、分类和数据填充,并且通过指令微调(Instruction Tuning)和思维链(Chain of Thought),可以显著提升LLMs在时间序列任务中的表现。另一种方式是将LLMs与其他神经网络结合,如利用LLMs提取动态特征,并将其与图神经网络(GNN)融合,以提高股票价格走势的预测准确性和稳定性,该模型框架如下图25所示。

2. 异常检测

异常检测在金融领域至关重要,例如识别欺诈交易、账户异常活动和市场操纵等行为。传统统计方法虽然在异常检测中仍具备一定优势,但往往难以捕捉复杂的市场动态。深度学习的兴起,为这一领域带来了新的技术突破。特别是LLMs已被应用于多任务金融异常检测。例如Park等人利用LLMs,在标普500指数中检测市场异常行为,极大提高了异常检测的准确性和自动化程度,减少了对人工干预的依赖。

未来,LLMs在金融时间序列异常检测中可能会变得越来越有价值。LLMs不仅能解决传统技术的局限性,还能减少人工流程并增强利用市场异常行为的算法交易系统,为更复杂的自动化交易铺平道路。

(四)金融推理

LLMs在金融领域的另一个关键应用是金融推理。如前文所述,LLMs能够处理来自各种来源的大量金融数据,包括市场报告、金融新闻和历史价格数据等。这种对金融格局和市场动态的全面理解使LLMs能够支持战略财务规划、生成投资建议、提供咨询服务并协助财务决策。

作为例子,本小节给DeepSeek-R1提出了关于资产配置的投资组合建议,提示词为“假设我是一名中国投资者,具有100万元本金。我希望投资领域包括债券、黄金、以及股票。请结合当前经济状况,给出投资建议,并说明原因”。从下图27中DeepSeek-R1的部分回答中可以看出,DeepSeek-R1能够结合当前经济环境的核心驱动因素,给出操作策略和风险管理建议,并提供具体的示例配置方案。

LLMs在金融推理中的应用具有几个关键优势。首先,LLMs可以通过处理大量金融信息来增强数据分析,有助于投资者做出更好的决策。其次,LLMs可以用于预测建模,以预测市场状况和资产表现,从而产生可能的稳健投资建议。此外,LLMs可以提供个性化的咨询服务,通过分析个人或组织的财务状况、目标和风险承受能力,从而提供定制化建议。LLMs可以实时监控金融市场趋势和新闻,提供及时的更新和警报,帮助用户根据需要调整策略。如果将LLMs集成到智能客服、金融助手或聊天机器人等交互界面中,能够使财务咨询变得更直观、更易用,从而增强用户参与度,让个人能够更好地管理自身财务。

1. 财务规划

财务规划涉及设定财务目标、评估当前财务状况,并制定实现这些目标的策略。这一过程包括分析收入、支出、投资和风险管理,以制定长期综合计划。

在企业环境中,LLMs可以在财务规划的多个方面大展身手。例如,LLMs可以分析市场趋势和竞争对手数据,帮助组织制定业务战略。研究表明,LLMs能够通过自动提取和分类公司之间的关系,生成动态业务网络,反映市场竞争和合作格局,从而为决策者提供市场洞察,以支持战略决策。此外,LLMs可以简化财务规划流程。通过将LLMs集成到财务规划实践中,财务规划师可以利用LLMs增强客户沟通效率,快速提供个性化的财务建议。LLMs还可以作为辅助工具来快速帮助客户理解复杂的财务概念,提升财务教育的效率。下图28例子中展示了使用GPT3生成商业网络结构。

在个人财务规划方面,LLMs能够帮助个人制定长期理财策略。Lakkaraju等人的研究表明,基于LLMs的聊天机器人(如ChatGPT和Bard)能够提供个性化的财务建议,涵盖银行账户、信用卡和存款等多个方面。然而,这些模型在处理非英语查询和复杂财务计算时能力仍然有限,并且模型会出现数学错误以及缺乏视觉辅助工具。所以LLMs还存在很大的改进空间,以提高其在财务规划中的可靠性和包容性。除此之外,LLMs还可以优化预算策略,帮助个人和家庭最大化储蓄并管理复杂的收入和支出。在高净值场景中,有研究表明LLMs能够模拟各种税务情景,识别最优税务策略,并根据税法变化提供主动建议,从而最小化税务负担并最大化财务增长。

2. 投资推荐

除去根据财务状况进行规划,LLMs还可以通过分析金融数据、预测市场趋势和优化投资组合来革新投资推荐和财富管理。LLMs可根据个人风险偏好提供个性化建议,改进投资策略。然而,LLMs在财富管理中的应用需要建立监管框架,以确保公平性、有效性,并与人类专业知识相结合,从而做出明智的决策。

LLMs可以通过提供个性化和自动化的投资推荐,以充当一个机器人顾问的角色。例如,Huang等人研究了Wealthfront和Betterment等平台的有效性,这些平台利用AI算法为用户提供定制化的资产管理方案,以优化投资回报。类似地,Lu等人通过分析政策新闻和市场数据,发现LLMs能够生成优于市场表现的组合,尤其是在政策相关新闻的分析中表现出显著优势。研究表明,在分析政策相关新闻时,经过微调的ChatGPT能够实现3%的月度三因子阿尔法收益。Ramyadevi和Sasidharan提出的Cogniwealth系统利用Llama 2作为金融顾问,提供个性化投资建议与金融洞察。该系统可处理用户输入数据,并通过直观界面提供类似人类的响应,确保高度的适应性和用户体验。LLMs通过提供更准确、多样化和易于获取的投资建议,正在改变投资策略的格局。例如有研究表明,ChatGPT构建的投资组合在多样性和表现上优于随机选择的组合,这为专业投资经理和个人投资者提供了有价值的工具,使高级投资策略更加普及。此外,LLMs还能够自动生成技术指标代码,支持算法交易策略的开发。

3. 规范监管

风险管理和合规监管是金融领域的关键组成部分,它们有助于保护消费者并确保金融系统的稳定性。然而,金融产品的复杂性、不断变化的法规以及欺诈活动的威胁,给金融机构带来了巨大挑战。LLMs通过提供复杂的分析能力,正在成为辅助这些流程的有力工具。首先,LLMs能够提高财务审计的准确性和效率,特别是在文本匹配和法规解释方面。研究表明,结合GPT-4和领域特定模型的系统能够显著提升财务报告的合规性检查效率。此外,LLMs还能够解读复杂的金融法规,将其转化为简洁的数学框架,从而增强法规解释的可读性。

通过高级数据分析和模式识别,LLMs还能够有效检测欺诈活动并管理风险。研究表明,LLMs在信用评分和风险评估方面表现出色,甚至超越传统模型。此外,LLMs还能够整合多种数据源(如财报电话会议和市场数据),提供更全面的市场动态理解,从而提升风险预测的准确性。下图29展示了适用于风险预测的RiskLabs框架。

(五)基于代理的建模

基于代理的建模(Agent-based Modeling, ABM),在模拟复杂系统方面取得了显著进展。ABM的核心原理是创建自主代理(Agents),这些代理在定义的环境中相互作用,从而自下而上地涌现出复杂现象。与传统的假设代理行为一致且处于均衡状态的模型不同,ABM能够捕捉现实金融市场中多样化的行为和适应性策略。这种灵活性使ABM成为理解市场动态、投资者行为以及各种外部因素对金融系统影响的强大工具。

LLMs与ABM的结合为研究和应用开辟了新的途径。凭借其先进的自然语言处理能力,LLMs增强了代理的认知功能,使其能够解释和应对大量非结构化数据,如金融新闻、报告和社交媒体帖子。LLMs与ABM的结合使得模拟更加真实和自适应,这对于开发稳健的交易和投资策略至关重要。

在传统上,ABM在金融领域中的应用主要集中在模拟不同类型市场参与者(如机构投资者、个人交易者和监管机构)之间的互动,这些模型被用于研究监管变化、市场冲击和行为偏差对市场动态的影响。例如,基于代理的模型已被用于模拟高频交易的影响、金融危机的传播以及资产泡沫的形成。通过将LLMs引入这些模型,代理能够以类似于人类分析师的方式处理和响应实时信息,从而进一步增强模型的预测能力和准确性。

1.交易与投资

LLMs能够创建智能交易代理,以高精度处理海量数据并执行交易。这些代理利用LLMs的自然语言处理能力来解读和综合金融新闻、市场报告及历史数据,从而显著改进市场预测和交易策略。

例如,StockAgent探索了AI驱动的交易系统在不同外部影响下模拟和分析股票市场行为的潜力。它是一个由LLMs驱动的多智能体系统,旨在模拟真实投资者行为,并评估宏观经济事件、政策变更及财报等因素对交易活动的影响。研究发现,不同的LLMs(如GPT-3.5 Turbo和Gemini)表现出不同的交易风格和偏好,其中GPT代理的交易风格更加多样化和独立,而Gemini代理则更倾向于趋势跟随。这种差异表明,基于LLMs的系统可以提供个性化的投资策略和见解。此外,研究还指出,删除财务信息或通讯渠道会显著改变交易行为和市场动态,凸显了影响股市交易的复杂性和相互依赖性。下图30展示了基于StockAgent的模拟交易流程。

LLMs应用的一项重要进展是将多模态数据整合到交易代理中。FinAgent便是另一个典型案例,它融合不同类型的数据来支持量化交易和高频交易。FinAgent采用多样化的记忆检索系统和工具增强功能,使其能够与不同的数据源和工具交互,提高了在动态交易环境中的适应性和表现。下图31、32分别展示了FinAgent的整体框架流程图,以及使用FinAgent对某个股进行买卖择时并提供相应理由。

LLMs驱动的交易代理还擅长持续学习和自适应优化。FINMEM采用分层记忆与角色设计,增强代理处理层次化金融数据的能力,并将洞察转化为交易决策。其记忆模块借鉴了人类认知过程,包括工作记忆和分层长期记忆组件,使FINMEM能够根据信息的相关性和时效性进行分类和优先排序,从而保留关键见解,并迅速响应新的投资信号。在真实测试环境下,FINMEM能够持续进化交易策略,展现出在波动性市场中的决策优化能力。同样,QuantAgent采用双层循环系统进行自我改进,内层循环利用知识库优化响应,外层循环则通过真实市场测试与知识增强进行迭代更新。这种方法使QuantAgent能够自主提取金融信号并发现可行的交易机会,体现了LLMs在动态交易中的潜力。

人机协作也是一项重要的进展。Alpha-GPT系列(包括Alpha-GPT和 Alpha-GPT 2.0)强调在Alpha挖掘过程中融合人类与AI的力量。其中,Alpha-GPT 2.0进一步引入人类参与循环(Human-in-the-loop)框架,对投资策略进行迭代优化。这些代理能够解读交易理念并转化为有效策略,提供深入且可操作的Alpha信号。通过结合人类专业知识与AI能力,该方法提升了Alpha挖掘的效率和创造力,进而优化投资决策。

2. 市场与经济活动模拟

长期以来,市场与经济活动模拟是金融研究和政策分析的重要领域。传统模拟器通常基于计量经济学模型(如VAR、DSGE)和系统动力学模型,依赖历史数据和经济理论来预测市场行为。然而,它们多为静态模型,假设理性行为和平衡状态,难以应对复杂的经济动态和突发冲击。

相比之下,基于代理的建模(ABM)提供了更具灵活性的方法。该模型由多个自主智能体组成,每个智能体具有不同的行为和决策机制,在互动中形成复杂的宏观经济现象。ABM可模拟市场非线性动态,如反馈循环、市场情绪和自适应行为,但计算复杂度高,开发和验证难度大。

LLMs与ABM的融合代表了经济模拟的前沿发展。LLMs的高级自然语言处理能力可增强智能体的感知、决策和适应性,使其能够处理经济数据并模拟人类决策。例如,Li等人提出的EconAgent利用LLMs处理经济数据,实现更准确的趋势预测和政策影响评估。Horton提出的Homo Silicus智能体结合行为经济学原则,模拟人类在理性分析与情感驱动下的决策过程,使经济模拟更具现实感。

此外,Zhao等人研究了CompeteAI,在虚拟环境中模拟竞争行为,揭示市场竞争如何推动策略创新和绩效提升。下图33中的例子展示了使用CompeteAI模拟市场竞争。在该模拟中,两家作为竞争对手的餐厅每天会收到日记账和竞争对手的信息。然后,CompeteAI会根据基本信息提示、菜单提示、厨师提示和广告提示来管理餐厅。

3. 自动化金融流程

LLMs的引入革新了金融自动化,提高了工作流生成、战略规划和决策执行的效率,使得复杂金融任务的处理更加智能化和灵活。

LLMs在金融工作流自动化中的一个重要成果是FlowMind。传统的机器人流程自动化(RPA)依赖预定义任务,难以应对突发性或非结构化的任务,而FlowMind通过GPT等模型动态生成工作流,实现更强的灵活性。该系统采用结构化API约束LLMs的推理过程,确保生成结果的可靠性,避免幻觉问题,并加强数据隐私保护。此外,FlowMind设计了用户反馈机制,使用户可以审查和调整生成的高层次工作流,提高适应性和准确性。在NCEN-QA数据集(一个金融问答任务的工作流生成基准)上的测试表明,FlowMind在自动化工作流生成方面远优于传统方法。这一框架展现了LLMs在金融服务领域处理复杂和即时任务的潜力,同时保证数据完整性和安全性。

在该问题上,另一个重要研究成果是AUCARENA,其主要用于评估LLMs代理在拍卖环境中的战略规划和执行能力。在升价拍卖(Ascending-price Auction)场景中,GPT-4等LLMs代理作为竞标者进行预算管理和实时策略调整。该系统采用“信念-愿望-意向(BDI)”模型,使智能体能够根据竞拍进展动态调整目标和规划策略。研究表明,GPT-4代理在战略规划和资源管理方面表现优秀,能够在竞争环境中做出灵活决策。然而,在某些情况下,GPT-4仍可能被更简单的规则驱动方法击败,说明LLMs在战略推理方面仍有优化空间。AUCARENA研究表明,LLMs在复杂的竞争性环境下具备强大的自主决策和策略优化能力,可广泛应用于金融市场的拍卖机制、竞标策略制定等场景。

下图34展示了使用AUCARENA进行模拟拍卖和评估:(a)展示了一场多轮、价格递增的拍卖,拍卖者宣布最高出价,竞标者经过私下推理后公开决定;(b)使用“信念-愿望-意向”模型提出竞标代理结构,涉及规划、竞标、信念更新和重新规划,其中信念和计划随着每次拍卖的发展而调整;(c)提供更新信念和计划实例,以解释投标人在推理后为项目分配的优先级分数。

4. 多智能体系统

多智能体系统(Multi-agent Systems, MAS)结合LLMs的强大能力,能够提高金融分析的稳健性和准确性,并优化交易与投资策略。TradingGPT采用三层记忆系统(短期、中期、长期),结合记忆衰减机制模拟人类认知过程。智能体通过交流和辩论增强决策能力,并具备不同交易风格(风险偏好型、中性型、风险规避型),从而提高市场适应性。与此同时,SocraPlan通过多智能体推理优化企业规划,涵盖市场调研、客户分析等环节。SocraPlan的每个智能体专注不同任务,共同提供全面的市场洞察。下图35展示了使用TradingGPT提供基于不同风险偏好的投资建议。

在金融文本分析和自动审核方面,HAD框架专注于金融情感分析,针对讽刺、语境错配和时间表达等常见问题,提升分析的准确性。此外,利用Llama 3和GPT-4的多智能体系统可以自动比对贷款申请与银行流水,提高审核效率和准确性,减少人工成本。

多智能体系统还在市场监测与异常检测方面发挥重要作用。Park框架通过智能体协作,实现数据转换、专家分析和交叉验证,提升金融市场异常检测的准确性。在标普500指数的测试中,该系统展现出卓越的性能。此外,SEP(Summarize Explain Predict)框架结合自反思能力和PPO算法,生成可解释的股票预测,提高了LLMs预测的透明度和投资者的信任度。

(一)数据集

LLMs训练依赖海量数据集。在特定金融任务中,数据对训练和评估模型至关重要。几种广泛使用的金融数据集包括:

Financial PhraseBank (FPB):该数据集由带有情感标签的金融短语组成。由于其详细且具有领域特定性的标注,它被广泛应用于金融情感分析任务。

Financial Question Answering and Opinion Mining (FiQA):该数据集专注基于情感分析和基于观点的问答。它包含经过情感标注的金融新闻和微博等数据。

FinQA:一个专为金融数据中数值推理设计的数据集,强调模型在计算金融指标和复杂推理任务中的表现。

此外,还有ECTSum、FiNER、FinRED等数据集也对不同的金融任务做出了贡献,包括财报电话会议摘要、命名实体识别、关系抽取以及金融语言理解评估等等。

(二)代码和基准

下表1总结了评估LLMs在金融领域性能的综合基准。强大的基准测试对于提供标准化衡量指标至关重要,以便客观比较不同模型在各项金融领域应用中的表现。这些基准测试的综合发展,为评估LLMs在金融领域的多样化能力提供了有力支撑,确保模型能够在广泛的任务上进行测试。

该领域的一项重要工作是 FLUE(Financial Language Understanding Evaluation),它提供了一套全面的基准测试,以评估语言模型在各种金融自然语言处理任务上的表现。FLUE包括五个任务,分别是基于FPB数据集的金融情感分析;基于Gold News Headline数据集的新闻标题分类;使用金融协议数据的命名实体识别;使用FinSBD数据集的结构边界检测;使用FiQA数据的问答任务。

PIXIU是该领域的一个重要进展。PIXIU引入了一个综合框架,包括金融大语言模型FinMA,大规模多任务指令数据集,以及综合评估基准FLARE(Financial Language Understanding And Prediction Evaluation Benchmark)。PIXIU具有开放性资源,其所有组件(包括模型、指令微调数据和基准测试)均可公开获取,以促进透明度和进一步研究。PIXIU的指令微调数据涵盖了多种金融任务和模式,包括文本、表格和时间序列数据,确保了全面的模型训练。FLARE基准评估模型在四项金融自然语言处理任务(情感分析、新闻标题分类、命名实体识别和问答)以及一项金融预测任务(股票走势预测)上的表现,涵盖了9个数据集。PIXIU能够对LLMs处理不同金融数据的能力进行深入考察,提供更全面的评测标准。

此外,为评估LLMs在更广泛金融任务上的表现,研究者还开发了众多基准测试。例如,Li等人研究了LLMs在金融文本分析中的有效性;MultiLing 2019和BizBench评估了LLMs在金融叙述摘要和商业及金融背景下执行定量推理的能力;AlphaFin和FinanceBench评估了LLMs在股票价格趋势预测和金融问答任务上的表现;等等。

首先,高质量数据和多模态数据对发展先进的LLMs至关重要,但数据问题仍是LLMs的一大挑战。尽管LLMs在处理和理解长文本序列中的上下文信息方面表现出色,但在处理高维金融时间序列数据方面的表现仍不确定。其次,目前数据污染问题严重影响了LLMs的性能,越来越多的数据由LLMs自身生成,而非人类生成。例如,如果财务报告由LLMs生成,模型实际上是在学习自己的输出,这可能导致学习过程变得僵化和不灵活,无法捕捉人类表达的真实意图和细微差别,从而导致生成内容的质量下降。为了解决这一问题,各大公司正在强调收集高质量、多样化的数据集,例如通过将现有数据集转换为特定金融自然语言处理任务的指令微调(Instruction Fine-tuning)数据集,可促进高级LLMs的发展。此外,金融多模态数据集的研究也将变得越来越重要,以提升LLMs在复杂任务上的能力。除此之外,在快速发展的金融领域中,LLMs被广泛用于生成交易策略,这带来了一个独特的挑战,即信号衰减。随着越来越多的市场参与者使用LLMs,这些策略的有效性可能会随着时间的推移而减弱,导致盈利信号的枯竭。然而,这一挑战也为开发自适应LLMs提供了机会,这些模型能够不断从新数据中学习,并随着市场条件的变化而进化。通过利用其处理大量金融信息并识别新兴模式的能力,这些模型可以通过持续的重训练和验证来保持其长期有效性。

其次,LLMs的建模问题也是挑战之一。首先,由于LLMs的高计算需求,如何平衡快速、低成本的模型推理与高性能是一个重大挑战。其次,利用LLMs进行量化研究时,还需要考虑金融模型回测时是否使用了未来信息。如果在LLMs的训练过程中无意纳入了未来信息,会导致过于乐观和误导性的回测结果。解决这一问题需要谨慎处理数据,并实施稳健的验证技术。此外,LLMs的输出还存在着幻觉问题,如果幻觉出现在金融任务中,可能会引发关于合法性和可靠性的重大担忧。财务报告受到严格的监管标准约束,不准确可能会导致严重后果。确保LLMs的生成内容准确且符合法律标准是一个复杂的过程,需要仔细考虑和监控。最后,LLMs的输出在本质上是从分布中采样的,而非确定性的。这意味着多次询问LLMs同一个问题可能会得到不同的回答,而其中一些回答可能存在错误。为了控制风险,有必要对LLMs的输出进行不确定性估计,并为其预测建立置信区间。这种方法有助于控制错误并降低风险,从而增强金融决策的可靠性。

基准变化也是LLMs面临的问题之一。使用LLMs构建交易策略的一个重大挑战在于评估过程。当前的基准测试方法在LLMs出现之前设计,随着环境的变化,这些基准可能不再适用于评估LLMs生成的信号。因此,开发适应LLMs并与当前市场状态一致的新基准至关重要。

最后,还要关注LLMs的可解释性。利益相关者需要清楚了解这些模型如何做出决策,以建立信任并有效利用其输出。通过提高LLMs透明度和可解释性,金融机构可以增强对其AI驱动流程的信任,从而改善决策并促进LLMs在金融领域的广泛采用。

近年来,人工智能技术的快速发展推动了大语言模型(Large Language Models, LLMs)的革新。作为最前沿的技术之一,大语言模型正在广泛应用于各行各业。例如2025年火遍全网的DeepSeek就是最先进的大语言模型代表之一,它不仅可以充当聊天机器人的角色,同时还展现出强大的复杂问题推理能力,拥有巨大的应用前景与潜力。

金融行业作为一个高度依赖数据分析和信息处理的领域,对先进的人工智能技术有着极大需求。LLMs凭借其强大的文本理解能力、信息提取能力以及推理和预测能力,在多个金融场景中具有重要应用价值。例如,在投资分析领域,可辅助分析师快速处理海量信息,识别市场趋势;在风险管理方面,能够实时监测潜在风险因素;在客户服务中,可提供智能化的投资咨询和财务规划建议;在合规监管方面,有助于自动化文档审查和异常交易检测。随着技术的不断进步,LLMs在金融领域的应用深度和广度将持续扩展,推动行业朝向智能化发展。

为了帮助读者更好地了解各类LLMs以及LLMs将如何改变金融行业,本文参考了截至目前的最新研究论文,对各类大语言模型及其在金融领域的应用进行介绍。

在第一、二章中,本文结合文献中的应用实例,对DeepSeek及GPT、BERT、T5、ELECTRA、BLOOM、Llama等通用大语言模型,以及Ploutos、FinBERT、BBT-FinT5、FLANG、BloombergGPT、FinLlama等金融大语言模型进行介绍。

在第三章中,本文结合基于DeepSeek的实际例子与文献应用,进一步对大语言模型在语言任务(如企业年报分析)、情感分析(如市场情绪分析)、时序分析(如股价走势分析)、金融推理(如资产配置建议)、代理建模(如市场竞争模拟)等金融领域的应用进行介绍。

在第四、五章中,本文罗列了大量的相关开源数据、代码和基准,并总结了大语言模型在金融领域中的应用机会与挑战。

七、风险提示

本文所述模型用量化方法通过历史数据统计、建模和测算完成,所得结论与规律在市场政策、环境变化时存在失效风险;本文策略在市场结构及交易行为改变时有可能存在失效风险;因量化模型不同,本文提出的观点可能与其他量化模型结论存在差异。

加载中...