新浪财经 基金

愿到最后我知,锻炼里的意义

念空科技

关注

“半次到一百次,一天一天去试。靠勇气加斗志,放弃太轻易。”

上一集,我们尝试初步建立了关于人工智能、机器学习、深度学习的简要图谱,用集合、子集的一个“三重门”的关系描述了人工智能、机器学习和深度学习之间的关系,即,将这三者想象成一种嵌套关系:人工智能是一个广泛的领域,机器学习是实现人工智能的一种手段,而深度学习则是机器学习中的一种特别有效的技术。

今天我们尝试对“机器学习”的基础原理做一些简要的介绍。

机器学习是人工智能的一个子集,如果我们把训练人工智能看作是一个目标,即人类要培养一群可爱的机器小朋友来成为人类的好帮手,以帮助人类处理庞大而繁杂的数据信息(实时发生的海量的医疗影像、金融交易、客户行为等数据,那么我们就可以把“机器学习” 看作是把机器小朋友训练为好帮手的过程。

正如我们教一个孩子,我们指着一只黄色短毛的猫咪告诉他说:“这是猫猫”,下次他看见黄色短毛猫咪就可以告诉你“这是猫猫”,然后你指着一只白色长毛波斯猫告诉他说:“这也是猫猫”,下次他看见白色长毛波斯猫就会说“这也是猫猫”,人类幼崽的聪慧在于可能第三次当他自己看见一只灰色短毛的猫咪时,他就可以自己判断说“这也是一只猫猫”——这是伟大的碳基人类的智能。但机器幼崽在起步阶段显然要后进很多,你要给他“看过”很多很多张、N张猫咪的图片后,他才能在第N+1次看到猫咪的图片后输出“这是猫猫”。让机器幼崽“看会”的过程,就是“机器学习”。具体是怎么实现的呢,我们接着往下看。

机器幼崽的认知模式:    

读数算数     

机器是无法有机整体地认知文字、图片、声音、影像等信息的,我们都知道在计算机中,任何信息都是以是数字0 、1的组合来表示的,比如一张图片,其实也是由很多数字来构成的,我们看以下这张图片:

图片中的每一个像素点都可以用一个数字来表示其相应的亮度颜色,0表示黑色,255表示白色,0-255中的任何一个数字都可以表示一种介于黑色和白色之间的灰色,R(Red)、G(Green)、B(Blue)颜色空间中各种由不同程度的三原色所叠加起来的、所有能为人类视觉所感知的颜色都可以由数字来表示。

如果一张图片长有100个像素点,宽有100个像素点,那么整张图片就可以由100*100=10000个像素点来表示,即由10000个数字来表示这张图片:

同时,图片中的内容,例如猫、狗、鸟我们也用数字来标识,比如用0来表示猫,1来代表狗,2来代表鸟,3来代表大象,4表示犀牛……7表示T恤衫,以此类推。

当我们把这张100*100,由共计10000个数字表示的图片输入给计算机,计算机就会通过某个“特别的数学公式”将这10000个数字进行计算,最终得到一个新的数字,比如最终得到了一个为“7”的结果,“7”表示T恤,那么计算机从而识别出这张图片表示T恤。

训练机器幼崽:   

找到最对的参数,确认最终的公式     

然而寻找这个“特别的数学公式”并不容易。这个“特别的数学公式”其实就是算法和模型。一个理想的算法、模型,应该使得一张图片能够被计算机清晰地识别,那么如何才能找到这个“特别的数学公式”呢?我们尝试以一个识别猫狗的例子来予以说明。下图是一张猫和一张狗的图片,图片本身有224*224个像素,但为了说明的简便易懂,我们将每张图简化为仅含有2个像素,即 X 和 Y:

其中,猫图X=1.62,Y=-1.46,狗图X=-1.45,Y=-2.12。同时,在类别上,我们以数字+1对应猫图,数字-1对应狗图。现在我们尝试来得到这个神秘的“特别的数学公式”。我们先给X、Y各自赋一个系数W1、W2,再加一个阈值b,以拟合一个公式,使得:

1)W1*X+W2*Y+b≥0时,输出数字+1,识别为猫图;

2)W1*X+W2*Y+b<0时,输出数字-1,识别为狗图。

这里的 W1 、W2 、b 即是“参数”。含有 X 、Y 的数据就叫做“数据集”。

后续,我们尝试输入更多的图,即输入更多不同色彩、不同形态、不同角度的猫猫狗狗图,这些图以不同的(X,Y)进行输入:

为了使色彩、形态、角度各异的所有猫狗图,都能被正确划分开来、识别出来,我们需要不断调整W1、W2 、b的值,从而使得:

1)输入的各种猫图的数据(X,Y)经过W1*X+W2*Y+b 的运算,都得到≥0的结果,从而输出数字+1,正确识别为猫图;

2)输入的各种狗图的数据(X,Y)经过W1*X+W2*Y+b 的运算,都得到<0的结果,从而输出数字-1,正确识别为狗图。

这个“不断调整 W1、W2、b 的值”的过程就叫做参数的学习,也叫做模型的训练。

当找到那组能够正确区分所有猫图和狗图的“斜线”,即找到最终精确的参数W1、W2、b时(上图右下,当W1=6.91,W2=-4.10,b=0时,黄点表示的猫猫和蓝点表示的狗狗被彻底区分开来),这一轮模型的训练,参数的学习,机器的学习就完成了。

在实际的机器训练过程中,根据模型和任务的不同,涉及的参数数量往往非常庞大,可以从几百到数亿不等。一个简单的线性回归模型可能只有几个参数。但是大型的卷积神经网络(CNN)或者长短期记忆网络(LSTM),参数的数量则会迅速增长。在更高级的模型中,比如用于自然语言处理的Transformer模型(例如GPT系列),参数的数量可以达到几十亿。

略作小结:机器学习的基础原理用简单的比喻来解释,就仿佛是教一个孩子通过经验来学习。“经验”是文本、图像、视频、音频或其他形式的数据,这些数据将通过各种步骤被转化为机器可以理解和处理的数值。机器尝试去找到一个“特别的数学公式” 以反映输入数值与输出数值之间的关系规律,然后通过调整公式中的不同参数,找到最终精确的参数,并确认最佳的公式。所以,机器学习的过程还可以被看作是一个寻找最佳函数的过程。

念空科技,2018年5月机器学习策略实盘开始运作,配备高性能GPU集群的服务器,使团队算力得到充分保障。到目前为止,念空深度学习为主的机器学习算法已经全面替代传统统计套利策略,应用于全部股票中性策略产品中。念空的优势在于人工智能领域较早的深入研究,使深度学习高频阿尔法选股策略提供了更稳定更高的超额收益。念空始终致力于运用科学的数据分析方法为投资人提供高质量的绝对收益产品,并将继续谦逊而持久地深耕于AI 领域,并时刻密切关注AI所可能带来的新风险和新挑战。

“半次到一百次,一天一天去试。靠勇气加斗志,放弃太轻易。”
“愿到最后我知,锻炼里的意义。”      

念空科技 是一家建立在数据科学研究基础上的量化投资机构。公司致力于运用科学的数据分析方法为投资人提供高质量的绝对收益产品。公司成立于2015年3月,2015年7月在中国证券投资基金业协会备案(编号为:P1016966),注册资本5000万,目前念空念觉总管理规模超过百亿。

加载中...