量化旗谈：人生优化与机器学习 | 金言洞见

金斧子资本

2024.09.1014:45

关注

导言：

喜欢喜剧的朋友，对脱口秀老将呼兰应当都不陌生吧！那么大家是否知道，这位战斗不息的脱口秀“小浣熊”，是如何保持旺盛创作力的？

龙小旗最近就刷到了呼兰的一篇专访，他在其中是这样说的：

“创作特别难，经常写四五个小时都毫无产出。我后来发现，其实不是灵感的原因，而是在于你的输入。我最近在看讲语言的书，看关于啤酒的书，还有关于金刚经的，真的是啥都学啥都看。这些东西能保证你有稳定的输出，而不是一些灵光乍现。”

“我把我自己就看成是一个机器学习。一开始的时候，需要大量的数据去构建你的模型，等模型构建好之后，再有新信息不断地进来，你的模型就可以处理这个信息，得到正确的结论。”

就像呼兰所讲到的，人生的持续进步和机器学习的优化迭代也存在某种相似。许多朋友常常会对量化投资中机器学习的概念感到生涩难解，那么本期，我们就从人类思维的角度聊聊机器学习，希望也能带给大家独特的思考与感悟。

/ 01 /

三要素

想象一下，一位大厨是如何炼成的？

首先，他要吃过见过足够多的食材；其次，他得掌握足够多的菜谱，最终形成自己的做菜思路。这之后，大厨面对新的食材，也能得心应手。

我们以此来类推机器学习——机器学习也有三要素：数据（Data），算法（Algorithm）和模型（Model）。

数据就好比是做菜所需的食材，是需要进行采集、分析和整理之后进入做饭流程的原料。机器学习是由数据驱动的，量大面广的数据是机器学习最关键的输入。

算法是机器学习中用来处理数据生成模型的一套方法步骤，也就是要告诉计算机如何“学习”数据中的规律。类比菜谱，食材就是菜谱的“训练数据集”，而菜谱便是告诉厨师运用什么样的做菜方法能做出最美味的菜肴。

模型则是算法在数据集经过训练之后得到的结果，或者说是从数据集中找到的规律和模式——这些规律和模式可以在运用到新的数据集上，输出新的预测结果。这就好比是一位大厨在学习过程中，运用菜谱处理各种食材搭配，做出美味的菜肴；学成的大厨再见到新的食材，也能举一反三做出佳肴。

从这个类比中，我们也能看到机器学习和人类逻辑学习的相似性，这也让我们可以从人类学习的角度来简单理解机器学习。当然，目前的机器学习要达到人类大脑水平，还需要一些关键的技术突破。

/ 02 /

数据：厚积薄发

就像文章开头引用呼兰访谈中说到的，要想在脱口秀舞台上不是昙花一现的精彩，而是长期稳定的输出，那么厚积薄发的持续输入便必不可少。

对机器学习来说，也是相同的道理。量化投资中的机器学习，往往需要过去非常长时间内各种类型的市场数据作为输入，这样训练出来的机器学习模型才能在各种市场情况下都作出有效的应对。

当然，数据输入从来不是一劳永逸的事情。就像人生的积淀从来不会停止，在量化投研中，也需要不断丰富拓展数据源、需要不断将最新的市场数据纳入训练集，才能让模型持续更新迭代，在长期内输出更好的市场表现。

/ 03 /

算法：结构化思考

人生常常会面临许多选择题。那么，如何穿透纷繁复杂的信息，真正明确自己的心意，做出理性决策呢？

举个例子：择业。

择业的时候，你需要考虑的因素很多：薪资待遇、福利关怀、工作地点、通勤时间、职业发展…… 那么，你就可以根据这些因素对你的重要程度，设置不同的根节点和叶节点，将一个复杂因素的问题转化成多层的简单二叉树问题。

这种分层简化、捋清问题的结构化思维，其实就可以类比机器学习中非常常用的决策树算法——根据不同特征的值递归地将数据集分割成子集，以创建同质的目标子集。

当然，机器学习中涉及到的算法非常多，除了决策树之外，还有最近邻（KNN）、支持向量机 (SVM) 、学习矢量量化（LVQ）、随机森林等多种算法，适用于不同的任务场景。

/ 04 /

模型：求解最优化

上文中聊到，基于训练数据集，通过合理的算法使用，生成具有分类或预测功能的模型，这是机器学习的思路。那么，如何判定模型的好坏呢？

机器学习中有一个概念叫做“损失”（Loss），指的就是预测结果和实际结果之间的差距。不难理解，损失值越小，就说明模型的预测效果越好。

因此，研究员往往会通过不断改进算法迭代模型，寻找能让损失值最小的模型，这就是寻找最优解的过程。损失函数的最小值分为局部最小值（Local Minima）和全局最小值（Global Minima），也就对应着局部最优解和全局最优解。

如上图所示，全局最优解自然是最好的方案，但是却并不那么容易抵达，因此，许多时候局部最优解也会是不错的结果。

我们也可以从人生选择的角度来理解：人生也是不断优化的过程，也是探索最优解的过程。人生同样很难做全局优化，很难从出生看到退休，因此比较简单且合理的是做阶段性的优化，或者局部的优化，找到当下最适合自己的选择，然后一步步向着更优的方向努力。

/ 05 /

总结

总结一下，如果用人类思维来类比机器学习的话，可以将机器学习看作是在长期丰富的积累沉淀基础上，通过结构化的逻辑思维寻求决策最优化是思维方式——不是某几次的灵光一现，而是追求长期的高质量可持续输出。

当然，这是一个非常简单疏漏的概括。不过通过这样的类比，我们也可以理解，为什么要在量化投资中运用机器学习方法？

机器学习是在丰富数据的支撑下，通过各种算法对数据中的模式或规律进行“自学”，最终生成对未来具有预测能力的模型。而量化投资要做的，也同样是通过分析大量历史数据，探索市场运作中客观存在的模式与规律，从而作出合理的投资决策。因此，机器学习便成为了量化投资领域的重要工具。

投资过程中需要一次次地基于未来预测做出决策。就像前文所说的，只要在足够多次的决策中，能以较高的概率找到最优解，即使不一定是全局最优解，但长期累积来看也会获得不错的市场表现。也正因此，量化投资比起来单次的“赔率”，往往更追求多次的“胜率”，通过高胜率在更长的时间维度上实现“稳中求胜”。

免责声明

本公众号所刊载内容仅供参考，不应赖以作为预测、研究、宣传材料或投资建议，亦不构成提供或赖以作为会计、法律或税务建议。本公众号所采用的第三方数据、信息、资料等内容来自本公众号认为可靠的来源，但本公众号并不保证这些数据、信息、资料等内容的准确性、时效性和完整性，亦不会为这些数据、信息、资料等内容承担任何责任。读者须全权自行决定是否依赖本公众号提供的信息。市场有风险，投资需谨慎。本公众号所刊载内容可能包含某些前瞻性陈述。前瞻性陈述的标志性词语包括“预期”、“应”、“估计”、“可能”、“会”、“将”、“相信”、“将来”、“计划”以及类似表达。前瞻性陈述通常涉及不可控风险及不确定性因素，可能导致实际结果与前瞻性陈述的预期结果完全不符。任何人需审慎考虑风险及不确定性因素，不可完全依赖前瞻性陈述。本公众号声明，无论是否出现最新信息、未来事件或其它情况，本公众号均无义务对任何前瞻性陈述进行更新或修改。