新浪财经 基金

玄元投资胡平:人工智能在基本面量化中的应用

玄元投资

关注

会议:开源证券2024年度策略会

议程:量化投资论坛主题演讲

日期:2023年11月8日

地点:深圳

主办:开源证券金融工程魏建榕团队

主题演讲:人工智能在基本面量化中的应用

特邀嘉宾:胡平,玄元投资量化投资部副总监,博士。

发言实录

大家好!感谢开源证券金融工程团队魏建榕博士的邀请!基本面量化的定义在过去常常局限于财务指标,如财报和盈利数据,导致人们对其有效性产生怀疑。相比之下,基于主观投资、卖方服务和其他信息,基本面量化的广度显然有限。然而,广义上基本面量化的定义更为宽泛,涵盖了与公司基本面相关的所有信息,无论是已兑现、预期的,还是舆论和外界的信息。这包括财报以外的各种经营数据,使得基本面的定义更为全面,超越了狭义的财务指标。因此,广义的基本面量化不仅包括传统的财务数据,还包括各种非行情类的信息,也涵盖了一些另类数据。在这一定义下,基本面不再局限于财务指标,而是成为一个更为综合和多维的概念,更好地适应了投资者对信息广度和深度的需求。

在基本面量化中,有三个关键点需要注意。首先,公司基本面信息在分析中至关重要,需要深度使用。其次,基本面信息不仅包括总结性财报数据,而且应该更为全面,超越仅仅等于财报的层面。第三,基本面分析与量价行情并非相互割裂。很多人误以为基本面数据更新频率低,因此适合中低频分析,而量价行情则需要高频分析,导致各自为政。实际上,这两者可以有效结合,避免独立分析带来的片面性。

在广义基本面量化中,关注公司经营的各个维度是至关重要的。首先,公司自身的财报数据是大家熟悉的信息源。其次,关注公司经营的底层数据,这些数据可能不会反映在财报中,例如财报之前的预期数据,一些可以被高频追踪的销售数据等等。这些底层数据对于增加财报的信息价值至关重要。第三,关注公司在所处行业的舆情,包括新闻、论坛和卖方研究报告等。第四,公司的概念标签也具有重要意义,即使公司并非实际从事该领域的业务。例如,一些公司被市场标签为泛AI公司,这也可能影响其股价。

后两个方面涉及产业链和供应链信息,这也是基本面的关键信息。在主观投资中,除了使用这些信息外,更多的是从深度和窄域的角度去观察,比如专注于某一领域的研究员可能更关注该领域公司的关系。

这些只是基本面量化的一些维度,实际上还有更多的信息可以用于分析,如卫星照片和消费数据这些比较另类的数据。

关于人工智能AI,其名字可能被高估,本质上就是机器学习或深度学习的高级名称。在IT领域,人工智能的应用非常成功。我在深圳的路上学习了一些GPT-4的内容,深感震撼。尽管我是运筹学专业出身,毕业已有十年,但对于当前的GPT-4仍感到震撼。AI在IT应用中的成功可归因于两个关键因素。首先,样本量足够大,比如无论是在计算机视觉还是自然语言处理等场景,都有足够大的样本。第二,任务相对稳定。例如,在观察一幅画时,猫始终是猫,狗始终是狗,语法也是相对稳定的。

然而,在投资应用中情况截然相反,样本量非常有限,尤其是在交易行为的y端。对于中低频的交易,持仓周期较长,每天只有有限的数据,这在构建超大模型方面显然不够。此外,投资任务的不稳定性也是一个挑战。市场结构、玩家的交易思路在过去的十多年中发生了巨大变化,导致许多传统因子和思路失效。这也解释了为什么超额回报逐渐下降的现象,市场竞争激烈,很多信号失效,越来越多的新投资交易模式(包括量化)也影响了市场的实际交易行为。

接下来,我们来举一些简单的例子,涉及金融和投资领域密不可分的一些专业知识。在计算机视觉(CV)领域,卷积神经网络(CNN)是一个基于卷积的领域感知模型。在投资中的应用场景将稍后展示。

另一方面,在自然语言处理(NLP)领域,有两个经典而有用的例子,一个是循环神经网络(RNN),另一个是Transformer。RNN是一种定向循环模型,它强调信息要以一定顺序表达,即顺序很重要。而Transformer采用全局注意力机制,尽管它考虑了位置信息,但在最新的语言研究中,顺序的重要性已经减弱。这与人们在生活中对语言的直觉相符,即语句的局部顺序变化通常不影响对话,但在投资中,信息的顺序可能更为关键。

图数据也很重要,比如图神经网络(GNN)是基于邻居聚合的,类似于CNN的局部聚合。强化学习是一个引起浓厚兴趣的领域,因为在投资中,通常是先进行预测,然后再做决策,而强化学习可以将预测和决策耦合在一起。尽管是否需要这样做还需进一步研究,但确实有一些基于强化学习的报告进行了尝试。

接下来,让我们谈一谈生成式人工智能模型(AIGC),我个人对这方面比较喜欢,因为我认为人类与机器的区别在于机器能够进行启发式思考,不仅仅是总结和归纳,还能够生成启发式的内容。

好的,我们简要地回顾了这一点,现在让我们再讨论一下量化投资模型的构建。首先,让我们讨论预测模型,因为在当前投资方法论中,主流观点是将预测和决策解耦。这意味着只要能够很好地进行预测,决策就相对简单。例如,如果可以准确预测一只股票的涨幅和波动,那么决策就是去重仓买入它,这是一种朴素的思路。

另外,我们可以利用人类的先验知识,将一些直观的可认知的环节精细建模,而不是直接使用端到端的方式构建大模型。

因此,刚才讲的机器学习也可以或者说需要融入一些人类的先验知识,尤其是在经济学习方面,尽管端到端具有优势,但你仍然可以通过精细化设计,去避免构建过于复杂的模型,比如可以将任务分解成小块,让不同的模型处理不同的任务。在IT应用中,许多突破性模型的设计比如ResNet,也部分引入了人类的先验直观,将任务拆分成已解决和尚未解决的两部分。这些都是人类知识在其中起到帮助作用的例子,因此并非纯粹端到端。这种思路在主动量化领域和主观投资领域都存在。

接下来,让我们讨论人工智能和基本面量化的结合。在输入端,我们可以通过底层经营数据和量化模型预测盈利,然后基于这一信息进一步预测股价。实际上,这与前面提到的方法非常接近。在输出端,关键问题是选择一个适当的预测周期。不同的机构可能有不同的需求,例如公募可能无法实现每天大量调仓,而私募可能可以。因此,预测周期可能在一天、三天、五天,或者在公募中可能为五天、十天、二十天等。这种选择与决策方式密切相关。 

此外,输入端也存在多样性。尽管金融投资市场中y端的数据相对较少,但x端的数据形式却非常丰富。在输入端(X端),X_t可以代表基本面数据的时间序列。X的形式可以是一个标量、一个向量、一个原始向量,也可以是经过编码的向量。编码的处理可以包括中性化处理,通过机器学习方式进行的编码等。此外,X还可以是更复杂的数据,比如图像(image)或图数据(graph)。

举个例子,图像跟股市是怎么链接起来的?有人认为时序数据足以替代K线图。但是主观投资经理更愿查看图表而不是时序数据。这也让CNN等技术变得有用。主观投资经理在做决策前通常会查看公司的K线走势,而不是时序数据或Excel表格。这种视觉分析在投资中有其用处,一部分因为它本质上真的有用,一部分是因为他人认为它有用,从而成为Benchmark,类似于期权定价大家都皈依到BS模型一样。

另外,人们曾考虑使用AI生成样本以弥补样本不足的问题。这包括使用GAN和VAE等技术。然而,我反对这种方法,因为股市数据具有极低的信噪比,有效信息非常微妙,无法简单通过学习历史样本来获取。生成的行情难以区分真实与虚假,其中一个可能包含Alpha而另一个没有。因此,生成有效的行情数据仍然是一个具有挑战性的问题。

这是我在工作中分享的实际应用内容。在产品选择上,我们让客户自主决定宏观、中观、微观等方向的盈利来源,对应的是全市场选股,指增,中性等不同产品,比如客户想宏观中观微观的钱都要赚,那可以配置全市场选股;如果客户只想挣微观的钱,那就配置中性;想挣宏观和微观的钱,那就配指增。

在主观和量化的博弈中,我们共同面对一个对手,即ETF。ETF通过大量资金复制指数,改变市场定价机制,对超额产生挑战。未来,我们将面对ETF作为一个共同的竞争者,无论是主观还是量化。感谢大家。

加载中...