北大这个专业,“鱼”与“熊掌”能兼得
中国科学报
■本报记者 孙滔 实习生 陈雨涵
“吟过诗词歌赋,熬过高数线代,品过经史子集,研过算法结构,啃过句法文法,train(训练)过神经网络。”
这是林子对自己本科生涯的速写。她的专业过于迷你,是北京大学中文系4个专业中最没有存在感的应用语言学(中文信息处理)。存在感有多低呢?每年毕业生不过四五个,一些同学因为无法坚持转了出去,也有同学对中文专业情有独钟而转了进来,而林子是2015级学生中唯一从头到尾读下来的那个。
在这个文理交叉专业,她既要学习古代汉语、理论语言学和现代汉语语法,又要学习高等数学、程序设计和数据结构与算法。“割裂”成了她的大学关键词。
林子闯出了一条自己的路。
大二开始,她在信息科学技术学院(以下简称信科)实验室实习,大三发了两篇人工智能(AI)顶会一作论文;毕业后去了美国硅谷的谷歌总部,在自然语言处理(NLP)研究部门从事了两年的全职工作,其工作还被收录进了机器学习教科书;2021年,她回到学术界,在美国加州大学圣地亚哥分校攻读计算机科学博士,3年来的论文被引用次数超过2000次。
这是一个怎样神奇的专业?
发蒙的开端
虽然高中是理科生,但林子很喜欢文学,还拿过新概念作文比赛的一等奖,由此得到了北大中文系自主招生的名额,最终顺利进入北大中文系。只是没想到,因为自己理科生的身份,她被自动分到了应用语言学这个由中文系和信科共建的交叉专业。
刚听闻自己的专业是应用语言学时,林子有点蒙,毕竟此前连语言学都没听说过,更不必提应用语言学和中文信息处理这几个词汇了。
后来她才认识到,正如毕业证书上英文“Computational and Applied Linguistics”(计算与应用语言学)所明示的,计算才是更本质的,这是一个计算机科学和语言学交叉的专业。
第一年的课业对大家就有巨大的杀伤力。
林子的大一课程没有专业课,而是基础课。她发现,在上语言学课程的时候,有的同学就对需要背诵且闭卷考试的课程不适应,尤其是写满繁体字的古代汉语课,不仅需要理解,还要对那些字进行溯源;计算语言学模块的课程需要他们学编程语言和算法;至于数学,更需要学习微积分、线性代数和概率统计。
有的同学无法接受这份割裂,就申请去了自己原打算去的文学专业或纯语言学专业,有的同学发现自己更热爱数学专业和计算机科学专业,于是也转走了。
在文理交叉中碰撞一段时间后,他们依然在这个专业带来的割裂感中云里雾里。再打听,师兄、师姐的毕业去向五花八门——去大厂、做教授,甚至有人做中小学数学教育,似乎没有明确的指路明灯。
只依靠上课,林子实在无法将语言学和计算融合起来。好在进入大二时,她找到了科研的乐趣。她终于看到,这个专业既可以接触文学,又能训练逻辑思维,原来“鱼”与“熊掌”真能兼得。
据这个迷你专业的负责人、北京大学中文系教授兼计算语言学研究所副所长詹卫东介绍,以2005年为界,之前应用语言学的专业课程体系是“以文为主,以理为辅”,之后则进入“文理并重,融会贯通”的轨道。不过,这些学生大部分“学着学着都偏计算了”。
林子发现,这个专业适合对语言文字有很大兴趣,且打算继续理科课程训练的理科生,或者对计算语言学和自然语言处理感兴趣并想培养理科思维的文科生。
林子就是学着学着偏向了计算。
她大二就参与到计算语言学研究所的一些科研工作中,其中有两项工作分别发表在自然语言处理领域很有影响力的两个国际会议上。
走到今天,林子觉得虽然对这个专业有了一定了解,但还不够。她说,交叉学科的魅力就在于它是一个并集,而不是一个交集。它需要同时掌握两方面的知识,但就像做菜一样,哪个调料多放一点,其实是由你自己决定的。
“想得更清楚了”
说起做菜,北大2009级学生艾琦才是专业人士。她在应用语言学专业毕业后学习了西方餐饮,如今在美国芝加哥从事餐饮工作。
2007级顾森就是那个在本科毕业后从事中小学数学教育的学生。在詹卫东的印象中,顾森的知识储备、思维方式“远远超出平均水平”。他曾建议顾森出国深造,在人工智能领域发展。但他同时看到,顾森确实擅长扮演教师的角色,在一次课堂上的演讲中,他将某个问题剥洋葱般讲解得酣畅淋漓,那是“一种与生俱来的思维习惯”。
孙薇薇是应用语言学专业2002级暨第一届毕业生,也是林子的另一位大学老师,讲授形式语法导论。她在2020年去了英国剑桥大学任教。
林子也找到了自己的路径。
当被问及假如当初直接进入计算机系是否会做得更好时,她的思考是——因为没人告诉自己应该怎么前行,她一直在不断优化自己的选择,如果学了其他专业,反而“可能就没有那么有趣了”,毕竟其他专业学子的成长路径相对成熟。
林子说,应用语言学的规模过小,所以大家的成长没有固定的、可以借鉴的范式,如此,“你反而更能够理解自己,探索自己的需求是什么,也能想明白自己为什么最终会选择继续读博士”。
林子还参加了北大信科本科生的科研评比,她和另外两个信科的同学拿到了一等奖。“当时老师还挺惊讶的。”她说。此时,信科的同学才知道来自中文系的林子的存在。
如今,林子正在做的课题与自然语言大模型相关,涉及大模型安全性和可解释性的深度测评。但她更感兴趣的,是大模型和人类语言学习机制之间有没有相似度。这是一个深刻的科学问题——小孩子每天受父母少量的语言熏陶就能学会说话,这与大语言模型的训练过程是非常不一样的。
大模型来袭
与林子相比,詹卫东已然将自己视作“前浪”。当大模型时代来临,他对这个专业也有了新认识。
自1993年9月进入北大攻读硕士和博士至今,詹卫东已经在语言与计算的交叉中碰撞了超过30年时间。
为了开发机器翻译系统,他曾自学C++语言,程序中的很多问题都由他亲自解决。他的博士论文《面向中文信息处理的现代汉语短语结构规则研究》正是出自他在机器翻译中的工作总结与提炼,并获得了2001年全国百篇优秀博士论文奖。
入门计算语言学30年来,詹卫东一直在试图拆解语言,提炼语言规律,再组装回去应用。就像一直以来的还原论,这个过程透明且清晰。
然而,横空出世的大模型动摇了计算语言学家们的信念,语言知识的提炼在大模型这里毫无用武之地——只需要投喂足够的数据,再辅以强大算力,就能得到鲜活的语言输出。
詹卫东说,最近,领域内专家经常讨论这一情况,但并无明确应对之道。同行们对大模型依然了解得太少,“去年一年,大家都处在一种‘懵’的状态,我们内部还缺乏更多、更深入的交流”。
作为詹卫东的导师,语言学家陆俭明并没有那么悲观。他在一篇文章中谈到,人工智能靠数据、算力、算法这“三驾马车”驱动,如果“语言知识”能加入到数据中,肯定会大大推进人工智能事业。陆俭明也是应用语言学专业创建的主要倡议者。
詹卫东说,当语言学家把这些知识归纳之后,或许就可以变成计算机可以用的更有效的知识。 不过,让他忧虑的是,一批老学者纷纷退休,留下的职位空缺却迟迟找不到新人填充。
一方面,好的自然语言模型人才已经被工业界垄断,那里有更高的薪水和更好的资源(算力和数据);另一方面,既熟悉语言学,又懂得大模型技术的人才少之又少。
2023年年末,受詹卫东邀请,林子回到母校,给学弟、学妹们作了专业学习的经验分享。他们这些“后浪”也被詹卫东寄予了厚望:万一哪天回来报效母校呢?