新浪财经

量化研究新思维(三十二)——另类数据在投资中的运用

新浪财经

关注

来源:海通量化团队

参考文献:

1. H. Blank, R. Davis and S. Greene. Using Alternative Research Data in Real-World Portfolios The Journal of Investing, June 2019,  28(4): 95-103.

另类数据是指在传统投资所用的财务报表和量价数据以外,可藉以获取信息的新型数据。通常,这些数据都由上市公司之外的第三方提供,包含更为及时的信息。由于另类数据往往来自于海量且复杂的数据源,并且需要精巧的自动获取和解析系统,因而被冠以“大数据”这样的专用称谓。常见的数据收集源包括网络以及广义上的各种媒介,如,传感器、移动设备、卫星和全球定位系统(GPS)。

1

海量数据到可管理、可使用的数据

面对规模如此之巨的数据,想要完整记录和收集已是不可能,遑论处理、分析并从中获取有效信息。一旦研究人员接受这个现实,对此类数据的关注点就需要转移到基于目标的数据收集上来。根据这个理念,本文暂时忽略其他数据源,只关注互联网大数据。具体而言,本文的研究对象来自有关品牌忠诚度的调研。作为代表公司声誉和形象的一类无形资产,品牌忠诚度反映了顾客对公司的信任程度。

2

品牌忠诚度

品牌忠诚度算得上是学术研究中最早被认可的无形资产之一,它体现了一家公司在如下几个方面的价值。

对竞争对手而言,强有力的进入壁垒。

不断提升的应对竞争的能力。

更高的销售额与收入。

忠诚的客户群体,极少受到竞争对手各种市场推广行为的影响。

运用品牌忠诚度提升投资业绩的一个典型案例,来自于由富达(Fidelity)的彼得·林奇管理的麦哲伦(Magellan)基金。彼得·林奇认为,商店、产品和餐馆这类消费和服务行业的个股十分值得研究,尤其是对那些已经培养起足够忠诚度的品牌,进一步分析其基本面非常有必要。在掌管麦哲伦基金的13年(1977-1990)间,彼得·林奇始终将品牌忠诚度作为公司一项非常重要的无形资产。他认为,那些对某个品牌异常关注的顾客,很有可能会比华尔街更早得到零售商的相关信息。这一时期,麦哲伦基金为持有人带来了超过29%的年化投资回报率,被誉为同期最优秀的共同基金。

Jack Treynor发展和丰富了上述观点,并转化成经济学术语:品牌忠诚度反映了消费者为其钟爱的品牌支付更高溢价的意愿。品牌忠诚度的重要性则来自于消费者在行业不稳定时的焦虑感,以及某个品牌就意味着旗下的产品比同行业内的竞争对手有更好的质量。Treynor使用竞争对手销售额的变化率作为品牌忠诚度的代理变量。

随着越来越多的投资者开始意识到这类无形资产对公司未来营收的影响,在选股时就会试图从公司的财务报表或其他类型的数据中提取和品牌忠诚度相关的信息。如果能够在下次财报公布前,察觉出品牌忠诚度的变化,那就有机会获取alpha。

品牌忠诚度的统计和分析,离不开网页抓取(web scraping)技术的发展。通过在网络上创建一个被动的“焦点组”,就可以统计分散在全球各地的数百万消费者,每日对数万品牌的引用情况。面对这样巨大的数据量,初涉网页抓取技术的研究人员很容易迷失其中,收集了很多无效的数据。因此,怎样应用必要的IT工具和资源、怎样设计算法和工程学方法,在有效抓取对开发交易信号有用的相关数据的同时,避开大量的噪声,就显得尤为重要。

3

从网络空间中抓取相关数据

从网络空间中抓取数据的方法不一而足、各有千秋,怎样选择一个合适的,要求对所收集的数据类型和使用目标有全面的认识。例如,政治竞选活动和投资经理对数据收集和使用环境的关注点就大相径庭。前者的目标是找出哪位竞选人的发言受到媒体最多的关注,因而通常只需要收集近期的数据,也不用特别考虑版权或知识产权的归属问题。

与之相反的是,投资经理在分析各个股票的特征并进行对比时,往往偏好更长时期内的数据。原因有两点,(1)可以更好地掌握网络数据在季度或年度上的变化规律(如,一个品牌每日的网络点击量和搜索量);(2)能够回测基于这些特征的投资策略是否有效。此外,投资经理还面临着其他掣肘。他们需要对版权和知识产权的归属问题保持高度敏感,以满足内部的合规要求。

在实际中,合规问题对此类数据的获取与存储有很大的限制。网络上几乎所有资料都有版权方;每个网站也都有使用条款,规定了在没有明确的许可下,应当如何使用网页上的内容。而且,通过未经授权或许可的方式(hacking)收集数据,更有可能引发隐私或保密方面的法律问题。

4

利用数据字典解决问题

要解决上述这些问题,也有很多方法。其中之一是基于美国1976年的“版权法案”划定的公开可用的信息,来构建数据字典。这个方法不需要复制、传播或存储任何原始数据,而是通过反汇编、合并、排序和匹配等技术,将原始数据转化成公开领域内的一系列通用语言。这个过程称为字典化,所有来自于原始网页的资料及其知识产权内容均不允许重构。借助这样的数据字典,投资经理不仅可以了解某个单词每天出现的频率,而且可以推断出其中哪些是被公开交易的上市公司用作了品牌。

字典化方法需要异常强大的IT资源作为支持。网络空间上的大数据确实非常之“大”,据估计,可能包含超过20ZB(20后面21个0)的数据。平均到全球网民,大约是每人5TB,足以装满价值几万亿美元的硬盘。任何一种数据收集方法都必然有时间上的约束,没有哪种方法可以在有限的时间内访问这个不断膨胀数据的所有内容。不过,只要有工业级的网络带宽,精细的工程学方法就能够提供统计意义上严谨且无偏的样本。

收集数据的软件必须是专门开发的,而且对开发能力的要求非常高。网页抓取部分需要十分精简,但又必须和特殊的字典化目标高度吻合。接下来的统计分析环节也需要仔细地设计,以应对大量的数据和噪声问题。例如,对所有数据构建置信度就是非常有挑战性的工作,最大值(如,Facebook或fb.com的网络引用率)和最小值(如,地区性银行的引用率)可能相差10个数量级。

此外,不稳定的网络带宽也会引入大量噪声。假设我们希望每天都能更新数据,那么何时运行网页抓取必然会影响样本量的大小,因为每天的有效带宽是在波动的。遗憾的是,即使是工业级的网络带宽,依然会在某天或某个小时内发生饱和、延迟等问题。而长期来看,当前的网络带宽固然不是几年前所能比拟的,但谁又能断言,未来会发展到什么程度呢。从样本量剧烈变化的数据中想要提取统计意义上稳健的信号,也是一项极具挑战性的工作。

字典化方法的另一个优势是避免了通过语义分析对网页信息的情绪进行识别。社交媒体发布的信息往往充斥着放大了两三倍的负面、夸张、歧视或尖锐的情绪,用这样的数据进行语义分析,对研究人员不啻为一场“噩梦”。但即便不涉及情绪识别,字典化方法同样可以找到某个品牌在网络上的出现频率的短期峰值,方便分析师推断和研究。

字典化方法还需要一个能够将品牌快速映射到对应公司的数据库。但是,品牌的内涵会随着时间变化,而品牌所属的公司变得更快。因此,使数据字典和这些变化保持同步,对实际应用而言,是非常重要的。

构建一个实时更新的品牌映射数据库是一项艰巨的任务,需要有强大的资源去保证它的准确性和及时性。好消息是,如果我们坚持用良好的质量控制体系来确保字典的精度和时效,那么由此收集到的数据就可以提供领先于传统数据的趋势型信号或信息。

5

实证检验:高信号行业 vs. 低信号行业

公司的引用率(citation rates,在网络上被搜索或浏览的频率)一般和它的客户数量以及与客户的互动频率高度相关。有些公司,如,美国安进制药(Amgen,Inc)、洛克希德·马丁(Lockheed Martin Corporation),从不和客户直接互动,故引用率非常低。另一些公司,如,麦当劳(McDonald’s Corporation)、杰克在盒子里(Jack in the Box Inc.,美国连锁快餐品牌)和客户有大量直接的业务往来,因而有着很高的引用率。

行业和市值是常用的上市公司分类方法,它们对品牌引用率在实际投资中的可用性有着非常重要的影响。当我们比较麦当劳和安进制药与客户的互动次数时,显然,两者所属的行业是它们在引用率上存在巨大差异的关键因素。类似地,当我们比较麦当劳和杰克在盒子里的引用率时,客户群体的数量(可用公司市值作为粗略的代理变量)很有可能是麦当劳显著高于杰克在盒子里的主要因素。

如果将所有公司的引用率(不考虑各自的行业)和其市值画成散点图,两者只存在微弱的关系(下图中相对平坦的回归直线)。

但是,如果我们取其中的一个子集,只保留消费者服务行业的公司(如,服装零售和餐饮板块),那么引用率和市值之间的关系就变会得非常突出。根据这一分析结果,我们可以认为:公司的主营业务是引用率最为关键的决定因素。而在同一行业中,更大的客户群体往往意味着更高的引用率。

6

网络曝光度(Web Luminosity)和信号相关性

公司的引用率会因为很多因素而随时间变化,例如,行业的内生增长或收缩、季节变化以及一些不可预期的可能会引起公众关注的事件。在任意一个时点上,每家公司都会有一个反映引用水平的特征变量,我们称之为网络曝光度。在那些和消费者关系密切的行业中,公司的网络曝光度通常和营收正相关。反之,那些属于非消费者导向行业的公司,网络曝光度和营收之间几乎不存在相关性。我们将最近8个季度上,引用率和营收的相关系数称为信号相关性。并将它们按行业汇总,观察其特征。

下图中,信号相关性较大的行业普遍位于右上方,唯一的例外是计算机制造业。它有着很高的曝光度,但由于绝大部分和售后的技术支持相关,因而只有一小部分曝光度和产生营收的活动直接相关。

进一步研究发现,信号相关性最高的公司均属于生产或销售可选消费品的行业,对售后服务的需求最低(见下表)。不需要售后服务的公司包括,星巴克、Ulta Beauty(美国美容产品连锁店)、布林克国际(Brinker International,美国连锁餐厅)等。反过来,对微软产品的高引用绝大部分来自于售后支持,因为消费者在购买微软的产品后都会安装在包含其他品牌的计算机上。类似地,品牌名“科尔维特”(美国雪佛兰旗下跑车)也有着极高的曝光度,但这不会在本质上影响通用汽车的营收,因为车主只是为他们1973年产的Stingray搜寻零配件而已。

为了避免引用率和营收之间的伪相关,理解这两个变量之间的因果关系殊为重要,行业分类提供了一个从宏观层面思考因果关系的角度。快餐行业中消费者引用率和营收之间的高相关,显然比农药生产行业更加合理与可信。基于这个理由,公司的行业分类对确定网络数据的可用性非常有帮助。

在可选消费品这样的行业中,当季的品牌实时引用率是对尚未公布的营收数据的一个很好的预测。原因有两点,一是大数据捕获的行为往往领先于销售渠道的统计数据(很多情况下,甚至领先于消费者真实的交易);二是正式的盈利公告,滞后期更长。因此,对于投资经理而言,日度的营收预测,能够为他们带来很大的优势。

下表中的公司,引用率和营收之间并无持续显著的相关性。这些公司的普遍特征是,并不属于直接生产或销售可选消费品的行业。因此,它们的引用率特征并不能为尚未公布的营收数据提供有效的预测。

7

在对冲基金中的应用

检验另类数据有效性的经典方法是测试得分排名前后1/5的股票所形成组合的业绩表现。为此,我们根据“品牌忠诚度”网站(BrandLoyalties)公布的滚动91天的引用率增速,将所有股票五等分。每一等分均按季度再平衡,时间范围是2008年至2017年9月30日。下图展示了前后1/5组合的累计净值。

引用率会受公司的宣传、促销、新产品推出等事件的影响,因而易发生剧烈的变动,导致每一等分都有较高的换手率。我们使用了不同的组合构建和再平衡方法后发现,引用率带来的alpha效应,足以持续14-90天。这表明,品牌忠诚度确实可以用来开发有效的交易策略。

从上图中还可以得到另一个发现,除了前后1/5组合保持稳定的收益差以外,“品牌忠诚度”网站(BrandLoyalties)覆盖的股票空间也持续优于基准——罗素3000指数。这也从侧面反映了,即使是单纯的网络曝光度,也可以有效识别出优秀的公司。

8

在纯做多的美国核心大盘股组合中增加alpha收益

在实际投资中运用从大数据中提炼的信号,比五等分测试要复杂得多。因为另类数据普遍都有覆盖度的问题,比如,有较高曝光度得分的公司或行业,其数量远远少于低得分的公司或行业。这就导致,在投资经理持有的核心组合中,有大量股票的品牌忠诚度评级都是中性的,也即,其得分是无意义的。那么,如何利用那些有明确品牌忠诚度信号的股票,来增加alpha收益?

首先,本文选取美国市场上市值最大的500个股票,并构建市值加权指数作为基准,记为SN 500。其次,将所有股票的权重降至初始值的50%。第三,对曝光度得分排在前三个五等分的股票,依次将权重调整为初始值的2倍、1.5倍及还原。最后,将所有股票的权重归一化,得到增强组合,记为BrandLoyalties 500。每个季度再平衡一次,保证股票的纳入和剔除不会引起幸存者偏差。

如下图所示,在2012年5月至2017年9月的5年间,BrandLoyalties 500相对基准获得了138bps的年化超额收益(17.66%vs. 16.28%),累计超额收益为101美元。由此可见,即使基准指数中只有一半多一点的公司对应有意义的得分,基于网络曝光度得分的策略依然能带来超额收益。

9

总结

随着市场有效性的提高,获取超额收益变得越来越难。投资者开始对那些尚未反映在价格中的另类数据展现出浓厚的兴趣,希望从中获取有价值的信息。但是,要从网络的海量数据中,识别出有用的内容,需要运用技术工具、算法和工程学方法等多种手段。即使研究人员找到了一些蛛丝马迹,数据的清洗和整理仍是一项浩大的工程。事实上,对于这类数据的探索更多地集中于它们的生成、获取和存储上,而非和传统的财务报表分析融合。

作为例子,本文重点介绍了网络抓取技术在另类数据收集中的作用,并且开发了一个特殊的alpha因子——品牌忠诚度。所用到的映射、字典编辑和分析技术,都是为了更准确地度量品牌引用率和最终消费之间的关系,并映射到相应的上市公司。在使用带有映射和规则的数据字典,从每日ZB量级的数据中收集TB量级的有用信息的过程中,不可避免地会遭遇一系列问题。这项任务看起来有些令人气馁,但本文也确实证明了它的价值。或许上文展示的流程并不适用于所有的大数据问题,但至少提供了一个如何从中获取信息的范例。

站在投资的角度上,本文证实了一个假设,即,从另类数据中分析得到的特征能够提供与众不同的信号,并创造超额收益。这些鼓舞人心的结果,必会激励众多研究人员去探索更新、更好的方法,将另类数据应用于实际投资中。

10

风险提示

市场系统性风险、模型失效风险、海外与国内市场结构差异风险。

特别声明:本篇报告的结果均由数量化模型自动计算得到,研究员未进行主观判断调整;数据源均来自于市场公开信息。

联系人:冯佳睿,021-23219732

加载中...