新浪科技

阿里数学竞赛决赛落幕,宣告AI大模型短期内仍是文强理弱?

新浪财经头条

关注

来源:码客人生

   数学能否成为人机大战的新战场?

85/801,801/60000。

这两个数字,分别是本届「阿里巴巴全球数学竞赛」决赛和初赛晋级选手比例。

6月22日,伴随着数学竞赛决赛结束,宣告这场总周期5个月,来自全球60多个国家和地区、代表100多所大学的参赛者智力角逐,终于迎来收官时刻。

接下来竞赛将进入专家组独立阅卷阶段,最终结果将于8月公布,金银铜及优秀奖等四类得主共同分享约400万元人民币奖金。

这一竞赛由马云于2018年发起,由阿里巴巴公益、达摩院(阿里全球性研究机构)联合举办,采用线上答题方式,出发点是激发更多年轻人对数学的兴趣,进而培养出更多具有创新思维的科技人才。如今竞赛举办至第六届,已成长为最大的国际性数学竞赛之一,累计吸引超过25万人参赛。

在社会声量方面,这一竞赛每年都能引发社会热议。

譬如今年来自江苏省涟水中等专业学校的17岁女生姜萍入围初赛;去年获得优秀奖的20岁华裔渐冻症少年楼印根;往届年龄最大的81岁吉大退休教授洪恒令;连续三届参赛的95后河南监狱警察吕致远;2018年拿下分析与微分方程赛道金奖的北大“扫地僧”韦东奕。

姜萍、楼印根、洪恒令、吕致远、韦东奕

不设国界、不分年龄、不问职业,阿里全球数学竞赛的立意,欢迎每一个热爱数学的人。

值得关注的是,在本届的竞赛组委会中,张益唐和印卧涛二人的名字位列其中。

他们一位是“半生潦倒”,在58岁证明数学界最著名的猜想之一——孪生素数猜想,从此跻身于世界重量级数学家的传奇人物;

一位是放弃美国终身数学系教授身份,加入达摩院从头组建团队,闭关四年研制“商用通用求解器”的带头人。

在本届竞赛中,他们也分别为理论数学和应用数学的重要代表。

张益唐、印卧涛

最终,阿里全球数学竞赛的意义,不仅仅体现在奖金和荣誉上,也远超解题本身,而是面向全球数学爱好者,集竞赛、培训、交流于一体,在于它对数学文化的推广、对数学精神的弘扬,以及对全球数学教育事业和科技创新的深远影响上。更近一步说,从科技追求到人才培养,从社会影响到企业文化,数学竞赛俨然成为达摩院乃至阿里集团战略布局的一部分。

用它们自己的话来说:把数学的故事讲下去,就赢了。

▋ 本届竞赛看点:AI全体无缘入围决赛,AI文强理弱?

伴随着过去一年大模型的火热,本届阿里数赛首次允许AI参赛--任何形式的AI都可以,无论是自己从头训练的模型,还是调用API。

这场史无前例的阿里AI数学挑战赛吸引了来自全球知名高校院所与企业的563支队伍报名。但初赛结果显示,AI最高分仅为34分,AI队伍的平均分达到了人类选手平均水平,离数学高手仍有较大差距,宣告AI全体无缘入围决赛。

这一现象引发了人们对“AI是否呈现文科强于理科”的讨论。

6月24日,在极客公园最新发布的“高考新课标Ⅰ卷大模型评测报告”中:GPT-4o 以562分排名文科总分第一。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,有三款国产AI成功冲上一本线。

与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科511分的一本线,大模型尚有较大差距。

另一场让AI进行高考的测试也引发关注。由上海人工智能实验室推出的司南评测体系OpenCompass,选取了零一万物、智谱AI、阿里云通义等6个开源模型及GPT-4o进行高考“语数外”全卷能力测试。

据悉,参与评测的所有开源模型开源时间均早于高考,以确保“闭卷”性,评测采用全国新课标I卷,由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。

一个明显的趋势是,大部分模型“考生”出现了偏科现象,其中语文、英语科目表现良好,但在数学方面全军覆没,连及格分都拿不到。

尽管如此,针对本届阿里数学竞赛,AI的表现也有可圈可点之处。

近期硅星人Pro的文章中提到:AI选手的表现令人类选手和阅卷老师都感到意外。一些AI在面对难题时会随机猜测答案,类似于人类在考试中的无奈之举;甚至于即便解题过程偏离正轨,某些AI仍能得出正确答案;阅卷老师注意到,AI还能获得一些未曾预想到它能解答正确的知识点分数。

此外一个有趣的现象是,AI在解题时倾向于展开冗长的推理过程,与人类跳过B直接从A推导到C的方式不同,AI似乎需要经过每个中间步骤。

这种独特的解题方法让AI似乎对数学有了自己独到的“理解”,类似于大型语言模型通过预测下一个词元(token)来重新理解语言。这种差异显著到让一些阅卷老师怀疑AI是否作弊。但这种怀疑并非因为它们表现得像机器,而是因为它们太像人类了。

然而,AI的偏科现象也提醒我们,目前的人工智能技术还存在一定的局限性和不足。或许其差异在于--AI和人类在解题和思维方式上存在本质的不同。AI的解题过程更倾向于遵循固定的算法和规则,而人类则能够运用直觉、经验和创造力来解决问题。

这不禁让人想起最近一年来学术界和业界持续讨论的一个话题:大模型出现的幻觉,或许正体现了大模型的创造力。

▋ 阿里达摩院为什么提倡数学?起底达摩院的研究版图

数学可以做什么?数学对阿里意味着什么?

在关注本届竞赛之余,这两个问题成为理解阿里以及达摩院长期规划的重要切入点。

尤其是达摩院,作为阿里集团的全球性科研机构,自2017年10月成立,一直致力于前沿科技的研究与开发。成立次年,达摩院响应马云号召,举办阿里数学竞赛、设立达摩院青橙奖,两大动作瞬间打开了达摩院的局面,第一波关注群体就是全球数学爱好者和中国青年学者。

实际上,达摩院在一众互联网大厂研究院中,成立时间并不算早。

华为“2012实验室”(华为的“总研究组织”),成立于2011年底,其前身是成立于1996年的华为中央研究院。

腾讯研究院,2007年开始组建,传言在2012年的组织架构大变构中被拆分,而后主要以“实验室”命名,如腾讯AI Lab、优图实验室、量子实验室、视频(多媒体)实验室。

百度研究院的发展可以追溯到2013年初,当时组建了深度学习研究院,即百度研究院的前身。2014年,百度研究院正式成立。

滴滴研究院成立于2016年,由2015年成立的滴滴机器学习研究院升级而来。

京东探索研究院作为京东权重最大的多个研究院之一,于2020年11月成立。

不同之处在于,马云作为阿里最大的话事人,早已为达摩院定下长期愿景--活得要比阿里巴巴长、服务全世界至少20亿人口、3年投资1000亿作为启动资金。一定程度上说,这种行事上的决绝,与从事基础科研研究的青年才俊志趣相投。

回到本届数学竞赛的主题上,数学能为达摩院带来什么?

长期以来,大众的直观感受是数学距离实际生活太过遥远。但在达摩院的回答,答案却并非如此。

一方面,数学是科学和技术发展的基础工具。

数学与其他学科如物理、工程、生物等的交叉,推动了新理论、新技术的发展。在当下信息时代,算法和数据科学的发展极大地推动了互联网、大数据和人工智能的兴起。这些技术背后都离不开数学的支撑,如算法设计、机器学习等。

另一方面,数学在解决工业、经济、金融、管理等领域的实际问题中发挥着关键作用。

在物流、供应链管理等领域,数学规划和优化算法帮助提高效率和降低成本。在国防安全领域,如弹道导弹防御系统的拦截问题研究中,解决尖端数学问题。甚至于历史上,数学在经济、产业或社会发生根本性变化时,常常起到先导作用。一个典型例子是,第一次工业革命期间,微积分在分析运动和力的应用,为机械设计和制造提供了理论基础。

可以说,数学的一端连接基础研究,另一端则连接产业应用。在这个过程中,达摩院的使命是打通中间墙,既要技术产品化、还要产品市场化。

目前达摩院的研究布局分为「智能」、「计算」两大分支。

前者包含了视觉技术、语言技术、视频技术、决策智能、医疗AI、智慧育种六个板块,推动了AI技术的发展,也为各行各业提供了智能化解决方案;

后者包含了计算技术、RISC-V两个板块,为硬件发展和软件优化提供了强大的支持。

上文提到本届竞赛委员会成员,拥有数学背景的印卧涛,正是如今达摩院决策智能实验室主任,长期致力于数学的其中一个分支--运筹优化研究。

他曾这样说道:“这一领域将整个经济社会描绘为无数个交织的方程组。机场航班的起降时间、物流的路径规划、金属冶炼的原料配比、工厂店铺的选址……”而这些方程组的价值在于,“为了实现经济学最简单而又最权威的目标——对稀缺资源进行最佳利用,必须快速求出这些方程组的最优解。 ”

求解,研发一款计算此类复杂数学题的“求解器”的底层工业软件,打破国外厂商垄断,这是属于印卧涛这样的应用数学人的选择。

当然,数学的世界远不止于此,理论数学作为数学的另一大分支,同样扮演着不可或缺的角色。

理论数学家们致力于探索数学的内在逻辑、结构和美。他们研究抽象的概念,如数论、代数几何、拓扑学和微分方程等,这些领域虽然看似与现实世界的距离较远,但它们为数学的深度和广度提供了坚实的基础。

在达摩院的设想里,这些都不应该缺失。

▋ 数学能否成为人机大战的新战场?

历史上,人机大战一直是AI发展的重要里程碑。从国际象棋到围棋,再到图灵测试,每一次的对决都标志着人工智能在特定领域的突破和进步。

现在,随着AI技术的飞速发展,数学领域似乎成为了下一个人机大战的关键点。

数学作为一门严谨的科学,其内在的逻辑性和普适性为AI提供了一个理想的竞技场。与棋类游戏不同,数学问题的解决不仅需要策略和模式识别,更需要深层次的理解和创新。

在阿里数学竞赛中,AI的参与不仅仅是为了解决数学问题,更是对其智能的一次全面检验。正如图灵测试中的机器需要通过对话来模仿人类,AI在数学竞赛中也需要展现出对数学概念的理解和解题能力。这不仅是对AI计算能力的考验,更是对其逻辑推理、创新思维甚至直觉的挑战。

What‘s next Human-AI battle, is it math? 

欢迎一起讨论。

特别声明:以上内容仅代表作者本人的观点或立场,不代表新浪财经头条的观点或立场。如因作品内容、版权或其他问题需要与新浪财经头条联系的,请于上述内容发布后的30天内进行。

加载中...