玄元投资胡平：人工智能在基本面量化中的应用

玄元投资

2023.11.2113:44

关注

会议：开源证券2024年度策略会

议程：量化投资论坛主题演讲

日期：2023年11月8日

地点：深圳

主办：开源证券金融工程魏建榕团队

主题演讲：人工智能在基本面量化中的应用

特邀嘉宾：胡平，玄元投资量化投资部副总监，博士。

发言实录：

大家好！感谢开源证券金融工程团队魏建榕博士的邀请！基本面量化的定义在过去常常局限于财务指标，如财报和盈利数据，导致人们对其有效性产生怀疑。相比之下，基于主观投资、卖方服务和其他信息，基本面量化的广度显然有限。然而，广义上基本面量化的定义更为宽泛，涵盖了与公司基本面相关的所有信息，无论是已兑现、预期的，还是舆论和外界的信息。这包括财报以外的各种经营数据，使得基本面的定义更为全面，超越了狭义的财务指标。因此，广义的基本面量化不仅包括传统的财务数据，还包括各种非行情类的信息，也涵盖了一些另类数据。在这一定义下，基本面不再局限于财务指标，而是成为一个更为综合和多维的概念，更好地适应了投资者对信息广度和深度的需求。

在基本面量化中，有三个关键点需要注意。首先，公司基本面信息在分析中至关重要，需要深度使用。其次，基本面信息不仅包括总结性财报数据，而且应该更为全面，超越仅仅等于财报的层面。第三，基本面分析与量价行情并非相互割裂。很多人误以为基本面数据更新频率低，因此适合中低频分析，而量价行情则需要高频分析，导致各自为政。实际上，这两者可以有效结合，避免独立分析带来的片面性。

在广义基本面量化中，关注公司经营的各个维度是至关重要的。首先，公司自身的财报数据是大家熟悉的信息源。其次，关注公司经营的底层数据，这些数据可能不会反映在财报中，例如财报之前的预期数据，一些可以被高频追踪的销售数据等等。这些底层数据对于增加财报的信息价值至关重要。第三，关注公司在所处行业的舆情，包括新闻、论坛和卖方研究报告等。第四，公司的概念标签也具有重要意义，即使公司并非实际从事该领域的业务。例如，一些公司被市场标签为泛AI公司，这也可能影响其股价。

后两个方面涉及产业链和供应链信息，这也是基本面的关键信息。在主观投资中，除了使用这些信息外，更多的是从深度和窄域的角度去观察，比如专注于某一领域的研究员可能更关注该领域公司的关系。

这些只是基本面量化的一些维度，实际上还有更多的信息可以用于分析，如卫星照片和消费数据这些比较另类的数据。

关于人工智能AI，其名字可能被高估，本质上就是机器学习或深度学习的高级名称。在IT领域，人工智能的应用非常成功。我在深圳的路上学习了一些GPT-4的内容，深感震撼。尽管我是运筹学专业出身，毕业已有十年，但对于当前的GPT-4仍感到震撼。AI在IT应用中的成功可归因于两个关键因素。首先，样本量足够大，比如无论是在计算机视觉还是自然语言处理等场景，都有足够大的样本。第二，任务相对稳定。例如，在观察一幅画时，猫始终是猫，狗始终是狗，语法也是相对稳定的。

然而，在投资应用中情况截然相反，样本量非常有限，尤其是在交易行为的y端。对于中低频的交易，持仓周期较长，每天只有有限的数据，这在构建超大模型方面显然不够。此外，投资任务的不稳定性也是一个挑战。市场结构、玩家的交易思路在过去的十多年中发生了巨大变化，导致许多传统因子和思路失效。这也解释了为什么超额回报逐渐下降的现象，市场竞争激烈，很多信号失效，越来越多的新投资交易模式（包括量化）也影响了市场的实际交易行为。

接下来，我们来举一些简单的例子，涉及金融和投资领域密不可分的一些专业知识。在计算机视觉（CV）领域，卷积神经网络（CNN）是一个基于卷积的领域感知模型。在投资中的应用场景将稍后展示。

另一方面，在自然语言处理（NLP）领域，有两个经典而有用的例子，一个是循环神经网络（RNN），另一个是Transformer。RNN是一种定向循环模型，它强调信息要以一定顺序表达，即顺序很重要。而Transformer采用全局注意力机制，尽管它考虑了位置信息，但在最新的语言研究中，顺序的重要性已经减弱。这与人们在生活中对语言的直觉相符，即语句的局部顺序变化通常不影响对话，但在投资中，信息的顺序可能更为关键。

图数据也很重要，比如图神经网络（GNN）是基于邻居聚合的，类似于CNN的局部聚合。强化学习是一个引起浓厚兴趣的领域，因为在投资中，通常是先进行预测，然后再做决策，而强化学习可以将预测和决策耦合在一起。尽管是否需要这样做还需进一步研究，但确实有一些基于强化学习的报告进行了尝试。

接下来，让我们谈一谈生成式人工智能模型（AIGC），我个人对这方面比较喜欢，因为我认为人类与机器的区别在于机器能够进行启发式思考，不仅仅是总结和归纳，还能够生成启发式的内容。

好的，我们简要地回顾了这一点，现在让我们再讨论一下量化投资模型的构建。首先，让我们讨论预测模型，因为在当前投资方法论中，主流观点是将预测和决策解耦。这意味着只要能够很好地进行预测，决策就相对简单。例如，如果可以准确预测一只股票的涨幅和波动，那么决策就是去重仓买入它，这是一种朴素的思路。

另外，我们可以利用人类的先验知识，将一些直观的可认知的环节精细建模，而不是直接使用端到端的方式构建大模型。

因此，刚才讲的机器学习也可以或者说需要融入一些人类的先验知识，尤其是在经济学习方面，尽管端到端具有优势，但你仍然可以通过精细化设计，去避免构建过于复杂的模型，比如可以将任务分解成小块，让不同的模型处理不同的任务。在IT应用中，许多突破性模型的设计比如ResNet，也部分引入了人类的先验直观，将任务拆分成已解决和尚未解决的两部分。这些都是人类知识在其中起到帮助作用的例子，因此并非纯粹端到端。这种思路在主动量化领域和主观投资领域都存在。

接下来，让我们讨论人工智能和基本面量化的结合。在输入端，我们可以通过底层经营数据和量化模型预测盈利，然后基于这一信息进一步预测股价。实际上，这与前面提到的方法非常接近。在输出端，关键问题是选择一个适当的预测周期。不同的机构可能有不同的需求，例如公募可能无法实现每天大量调仓，而私募可能可以。因此，预测周期可能在一天、三天、五天，或者在公募中可能为五天、十天、二十天等。这种选择与决策方式密切相关。

此外，输入端也存在多样性。尽管金融投资市场中y端的数据相对较少，但x端的数据形式却非常丰富。在输入端（X端），X_t可以代表基本面数据的时间序列。X的形式可以是一个标量、一个向量、一个原始向量，也可以是经过编码的向量。编码的处理可以包括中性化处理，通过机器学习方式进行的编码等。此外，X还可以是更复杂的数据，比如图像（image）或图数据（graph）。

举个例子，图像跟股市是怎么链接起来的？有人认为时序数据足以替代K线图。但是主观投资经理更愿查看图表而不是时序数据。这也让CNN等技术变得有用。主观投资经理在做决策前通常会查看公司的K线走势，而不是时序数据或Excel表格。这种视觉分析在投资中有其用处，一部分因为它本质上真的有用，一部分是因为他人认为它有用，从而成为Benchmark，类似于期权定价大家都皈依到BS模型一样。

另外，人们曾考虑使用AI生成样本以弥补样本不足的问题。这包括使用GAN和VAE等技术。然而，我反对这种方法，因为股市数据具有极低的信噪比，有效信息非常微妙，无法简单通过学习历史样本来获取。生成的行情难以区分真实与虚假，其中一个可能包含Alpha而另一个没有。因此，生成有效的行情数据仍然是一个具有挑战性的问题。

这是我在工作中分享的实际应用内容。在产品选择上，我们让客户自主决定宏观、中观、微观等方向的盈利来源，对应的是全市场选股，指增，中性等不同产品，比如客户想宏观中观微观的钱都要赚，那可以配置全市场选股；如果客户只想挣微观的钱，那就配置中性；想挣宏观和微观的钱，那就配指增。

在主观和量化的博弈中，我们共同面对一个对手，即ETF。ETF通过大量资金复制指数，改变市场定价机制，对超额产生挑战。未来，我们将面对ETF作为一个共同的竞争者，无论是主观还是量化。感谢大家。