新浪财经

ChatGPT的问世,离不开这个“爽文男主”

南风窗

关注

作者 | 王亚坤

在2023年爆火的ChatGPT能够问世,和一个中国人有关。

这个人是何恺明,绰号“大神”,是“深度残差网络”(ResNet)的主要发明者。

打开谷歌学术,搜索何恺明,你会得到一个惊人的数字:52万。这是何恺明的论文引用量,在整个人工智能学界,目前排名第三,仅次于被誉为“深度学习之父”的两位元老级前辈——约书亚·本希奥和杰弗里·辛顿。

更可怕的是,何恺明要年轻得多,1984年出生的他,论文引用量还在以每年10万以上的速度增长。

这是何恺明“大神”绰号的来源。

一个人的学术成就,显然不能只以论文引用量评价。何恺明能享誉AI界,和他摘掉人工智能上空的乌云有关:目前这场人工智能革命,核心是人工神经网络和深度学习。人工神经网络的层次越深,学习能力越强,功能也越强大。在ResNet之前,人类能做到的极限是19层神经网络,在这之后,突飞猛进到152层。

ResNet成为一系列明星产品问世的重要基础,包括击败世界围棋冠军柯洁的AlphaGo Zero,以及大规模语言模型ChatGPT。

除了发明ResNet,何恺明还有着如下光辉的简历:他是广东省高考满分状元,人生中第一篇论文,就拿到CVPR(计算机视觉三大国际顶级学术会议之一)年度最佳论文奖,此后又两次拿到三大顶会的年度最佳论文奖,是历史上第一个在毕业后10年内做到这一点的人。

一系列辉煌成就背后,难道何恺明真的拿到了“爽文剧本”?

“遵循内心”

30多岁的何恺明,还留着和大学时一样的学生发型,戴一副半框眼镜,穿着很朴素,出席活动时总显得有些拘谨,很少说话。

但一谈起AI,他就立刻口若悬河,滔滔不绝,像换了个人似的。

何恺明的研究领域是计算机视觉,人类大脑皮层70%的活动都在处理视觉信息,作为一门研究如何使机器代替人“看”的科学,计算机视觉是人工智能的重要分支,很多突破性的成就,比如深度学习革命,就是从这一领域内开端,并扩展到语言等其他领域。

1984年,何恺明出生在广州一个富裕家庭,父母都在企业做管理工作。5岁时,小恺明被送到少年宫学习绘画,这很快成了他的爱好,他经常整个下午坐在写生台前画画。

那时的何恺明想不到,图像会成为自己一生的研究领域。

何恺明

上中学之后,因为和参加奥赛班的时间冲突,何恺明被迫放弃学画。专注奥赛的他取得了好成绩,在广州执信中学读高中时,何恺明拿到了全国物理竞赛一等奖、广东省化学竞赛一等奖,并凭此在2003年5月被保送清华大学机械工程及自动化专业。

何恺明决定继续参加高考。凭借实力和稳健的心态,他考出了满分900分(广东按照考生名次排位进行分数转换),成了当年广东9位满分状元之一。

进入清华大学后,何恺明又一次“不走寻常路”,对物理和数学更感兴趣的他,放弃了原先保送的专业,选择了更有挑战性的基础科学班。

成立于1998年的基础科学班,是清华大学设立的一个跨系跨学科尖子班,学生不仅要提前学习物理和数学专业大部分基础课程,还要接受一定的科学研究实际训练。

何恺明连续3年拿到清华奖学金,在2007年还未毕业时,进入微软亚洲研究院(MSRA)实习。

何恺明和导师汤晓鸥

在MSRA,何恺明再一次“遵循内心”,没有选自己擅长的物理和数学组,而是进入更感兴趣的计算机视觉组,并在此遇到了改变他学术生涯的两个人:计算机视觉领域的顶级学者孙剑和汤晓鸥,前者成为他在MSRA的导师,后者则把何恺明带到香港中文大学多媒体实验室读博。

计算机视觉,就此成为何恺明一生的研究领域。

读博时的何恺明,并不着急发论文。尽管当时一同被招进港中文多媒体实验室的同学已经人均手握多篇论文,甚至王跃明(后来成为浙大教授)在三大顶会上也有不止一篇论文,但带着“高考状元”光环进组的何恺明一无所有。

直到2009年,何恺明才发表第一篇文章,孙剑和汤晓鸥是共同作者。这篇论文,提出了“图像去雾算法”,可以用来还原图像的颜色和能见度,同时也能利用雾的浓度估计物体的距离。这在计算机视觉上有重要应用,例如三维重建和物体识别。

灰霾照片的去雾结果

这篇文章赢得CVPR年度最佳论文奖,是其创办25年来,首次有中国人获奖,也是亚洲人第一次获奖。

汤晓鸥说,自己当时跟何恺明开玩笑:“你一出手就到了巅峰,从此以后学术生涯只能往下走了。”

但何恺明没有走下坡路。2011年博士毕业后,他加入自己实习过的微软亚洲研究院,在那里做出了自己最引以为傲的贡献:ResNet。

人工智能上空的“乌云”

人类具有视觉感知能力,能轻易分辨图像中的物体,并描绘它们的轮廓。从19世纪开始,科学家一直尝试推理出这一能力的作用过程。到20世纪中叶,计算机问世后,他们开始思考怎么让机器代替人做到这一切。

AlphaFold计算机程序模拟的一种人类蛋白质的结构,AlphaFold可以准确预测蛋白质结构,ResNet是其重要基础之一。

解决办法之一,是人工神经网络。

科学家们设计机器,连结许多简单的单元(神经元)来模仿人脑。但人脑有数百亿个神经元,当时的机器无法实现这项技能,这项思路被搁置,人们转向其他解决方案,但也都没有突破。

事情在2012年迎来转机。当时,“深度学习之父”杰弗里·辛顿和他的两名学生设计出卷积神经网络AlexNet,由8层网络构成的AlexNet,在当年著名的ImageNet大规模视觉识别挑战赛中获得冠军,且准确率领先第二名超过10个百分点。

卷积神经网络一战成名,科学家们意识到,通过增加人工神经网络的层次,可以达到更高的图像识别精度。

计算机视觉深度学习革命就此开启。

到2014年,神经网络的深度已经增加到16层,当时看起来很有希望,似乎只要不停增加深度,精确度就会越来越高。

但这很快被证明是“一厢情愿”:研究发现,到某个拐点之后,层次的增加会让神经网络识别的准确性急速下降。这个问题被称为“深度网络退化”,人工神经网络也止步19层。

这成为横亘在人工智能上空的乌云,不解决这个问题,深度学习领域很难再有进展。

何恺明和孙剑等人决心攻克这个问题。

他们尝试在神经网络中加入跳接,绕过一些中间层,直接联系到更下面的层,当网络中某些层性能好的时候,中间层起作用,性能不好的时候,跳接可以直接把中间层屏蔽掉。

“ResNet”就此问世,人工神经网络被推进到152层,精确度大大提高。

几乎毫无悬念,ResNet在当年ImageNet大规模视觉识别挑战赛中击败谷歌等一众对手,夺得第一。

困扰深度学习的人工神经网络层次限制问题得以解决,到GPT-3,已经有384层人工神经网络。

ResNet也成为之后AlphaGo Zero、ChatGPT等明星产品的重要基础。这些产品的问世,需要多种条件,比如海量数据和复杂的模型,但同样离不开人工神经网络的深度。

2016年,何恺明凭借ResNet论文再次获得CVPR最佳论文奖。截至2023年底,这篇文章引用量已经超过20万,是21世纪被引用量最高的AI论文。

5%的幸福时光

功成名就的何恺明,还在继续做研究。

2016年,何恺明转到脸书人工智能研究院(FAIR),在一年后夺得另一个计算机视觉顶级会议ICCV的年度最佳论文奖。这让他成为历史上第一个在毕业后10年内3次获得这一荣誉的科学家。

在FAIR工作的7年,何恺明年收入在数百万美元级别,基本实现财富自由。

随着产业界更偏向“产品驱动”,对纯学术研究的支持力度逐渐减小,2023年,希望专注学术的何恺明决定回归高校,他拿到麻省理工学院(MIT)电气工程与计算机科学系的教职。

2023年7月,何恺明在个人网站上宣布,将在2024年入职MIT。尽管具体日期还没确定,但他和这座世界顶级高校合作的第一篇论文已经在2023年12月发表。

一旦入职,“大神”何恺明会再创造一项纪录:他会立即成为MIT论文引用量最高的教师。据谷歌学术,目前MIT论文引用量最高的人是教授罗伯特·朗格,引用量是41万次,而何恺明论文引用量,如开头所述,已经超过52万次。

2023年8月,未来科学大奖将数学与计算机科学奖授予何恺明和他已故的导师孙剑等人,以表彰他们发明深度残差网络,使神经网络能够达到前所未有的深度。

在母校港中文举行的未来科学大奖获奖者学术报告会上,何恺明分享了自己做研究的动力:好奇心和热情。

何恺明认为,好奇心是人类推进科学的根本原因,让人类去探索未知。“我不在乎发表论文,我只关心为什么问题会是这样,只关心如何才能解决这个问题。如果我发现了办法,会有一篇论文出现,如果我没有找到,也许会有一篇不那么重要的、论述我经验和教训的论文出现。但这些都不重要,好奇心和热情,我认为这是我们研究生涯的重点。”

这听起来很美好,但实践起来却困难重重。所以立刻有学弟提问,科研生涯是一条不知何时才能看到光的隧道,该如何保持好奇心和热情?

何恺明表示:“研究总是充满疲惫、焦虑、失望,这是现实,如果你没有经历这些,意味着你还没有在做最好的研究。我的生活就是这样,我很失望,可能95%的时间,然后我花5%的时间完成那篇论文。然后我进入下一个循环,疲惫、焦虑、失望,直到我能享受那5%的时光。”

加载中...