新浪科技 股票

上海AI实验室联合清华、北大等造出"30亿参数数学奥赛金牌选手"

市场资讯 05.21 21:02

(来源:科技行者)

这项由上海人工智能实验室、香港中文大学、清华大学、上海交通大学、北京大学等机构联合开展的研究,于2026年5月13日以预印本形式发布,编号为arXiv:2605.13301v1,感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

数学奥林匹克竞赛,简称"奥赛",一直被认为是人类智慧的极限挑战之一。哪怕是全球最顶尖的高中生,面对国际数学奥林匹克(IMO)的六道题目,也往往需要耗尽数小时甚至整整两天的时间,绞尽脑汁才能解出其中几道。而现在,一个大约只有30亿参数的AI模型(相比之下,GPT系列的参数量往往是其数十倍),不仅能拿下IMO 2025的金牌分数,还能在美国数学奥林匹克(USAMO 2026)上达到有史以来人类参赛者的最高分水平。

这个模型叫做SU-01,而它背后的训练秘诀,用研究团队自己的话来说,是一套"简单而统一"的配方。这篇博客就来把这套配方拆解清楚,告诉你它到底做了什么,为什么有效,以及这对AI的未来意味着什么。

一、为什么奥赛数学是AI的"珠穆朗玛峰"

普通人可能会觉得,数学题不就是算算数嘛,AI不是早就能秒杀吗?但奥赛数学和普通的计算题有本质区别。普通计算题就像按照菜谱炒一道菜,只要照步骤来就好;奥赛数学题更像是给你一堆食材,让你在没有菜谱的情况下,发明一道前所未见的菜,而且这道菜还必须让最挑剔的美食评委打出满分。

具体来说,奥赛题要求解题者必须完成三件非常困难的事。第一,在几乎无限多的可能解题路径里,找到那条能走通的;第二,每一步推导都要严格有据,不能有半点逻辑跳跃;第三,最终呈现出一份从头到尾无懈可击的完整证明,能经受住专家级评委的严格打分。

即使是非常强大的AI,过去也只能做到"猜出答案",却无法写出严谨的推导过程。更麻烦的是,就算猜对了答案,如果证明过程有漏洞,评委也会扣分。这就是为什么奥赛数学被视为AI推理能力的"珠穆朗玛峰"——你不仅要登上山顶,还要把登山的每一步都记录在案、清清楚楚。

正因如此,谷歌DeepMind此前研发的AlphaProof和AlphaGeometry 2,虽然在2024年的IMO上达到银牌水平,但那些系统专门为数学打造,依赖大量特殊的形式化工具和巨额计算资源。而SU-01的目标更野心勃勃:用一套通用的、相对经济的配方,把一个已经具备基础能力的模型,改造成能在数学和物理奥赛上拿金牌的"全科选手"。

二、训练SU-01的"四步烹饪法"

研究团队把整个训练过程比作一套分阶段的配方,总共四个步骤,每一步都有非常明确的目标和设计逻辑。用一个更直观的比喻来理解:这四步就像把一个已经会基本厨艺的厨师,培养成米其林三星主厨的过程。

第一步叫做"行为塑形",英文缩写SFT,即监督微调。这一步的核心目的不是让模型学更多知识,而是改变它思考问题的方式。研究团队发现,他们选用的基础模型P1-30B-A3B本来就很能干,但它解题的风格更像是一个聪明但粗心的学生——答案有时候猜对了,但论证过程松散,缺少奥赛级别的严谨性。

为了改变这种习惯,团队精心准备了一批高质量的"示范解题":不仅有直接解题的过程,还有自我检验的过程(解完之后回头检查有没有漏洞),以及自我纠错的过程(发现漏洞之后重新推导)。这批数据涵盖数学、理科、编程和通用问答,共筛选出33.8万条轨迹,每条轨迹长度都控制在8192个词以内,确保信号质量。

这里有个非常精妙的细节,叫做"逆困难度课程"。通常训练AI时,人们倾向于先给简单的例子,再给难的。但研究团队反其道而行之:他们先计算每条训练数据对当前模型来说有多"陌生"(用"困惑度"这个指标衡量),然后从最陌生、最不熟悉的例子开始训练,最后才是熟悉的例子。这就好比一个厨师要学新菜,先从完全没做过的菜式下手,让大脑保持最强的学习警觉状态,等到新习惯基本成形再巩固已有的功底。实验结果表明,这种顺序能让模型在吸收新的思维方式的同时,更好地保留原有的能力。

第二步叫做"粗粒度强化学习"。经过第一步训练,模型的思维风格变了,但解题能力还需要通过大量实战来打磨。这一步引入了强化学习:模型反复解题,每次答对就得到正向反馈,答错就得到负向反馈,从而不断提升解题成功率。这一步用的题目是有标准答案的,可以自动验证对错,因此反馈非常可靠高效,共训练了96步。

第三步叫做"精粒度强化学习",这才是真正针对奥赛的核心训练。到了这一步,研究团队意识到光会猜对答案还不够,证明的质量同样关键。于是他们引入了一个更强大的"评委"——DeepSeekMath-V2(一个专门评判数学推导质量的AI),不再只看答案对不对,而是看整个证明过程是否严谨、完整、没有逻辑漏洞。

这一步还额外加入了两个机制。其一叫"自我精炼":如果模型解了一道题但评委打分很低,这道题就会被重新包装成一个新任务——"这是你之前的错误解法,请找出问题并重新解一遍"。这等于强迫模型学会反思和改错。其二叫"经验回放":如果模型在某道很难的题上偶尔解对了,这条成功轨迹会被专门保存下来反复学习,确保这种难得的成功经验不会被遗忘。这两个机制加在一起,共训练了104步。

第四步叫做"测试时扩展",也就是在实际解题时多给模型一些时间和机会。这一步不需要额外训练,而是在推理阶段引入一个循环:模型先写出一个解答,然后切换成"检查员"角色,仔细审查自己的解答有没有漏洞并出具一份"缺陷报告",再根据报告修改解答,如此反复。如果连续五次检查都通过了,就接受这个解答;如果连续十次检查都通不过,就放弃这条路重新来。每道题最多允许运行十个独立的解题流程,最终选出通过审查的最佳解答。

三、这套配方达到了什么成绩

成绩单非常亮眼。在2025年国际数学奥林匹克上,SU-01在不使用测试时扩展的情况下,自动评测得了21分,已经超过铜牌线;加上测试时扩展后,人类专家评定的最终得分是35分,恰好踩在金牌线(35分)上。六道题中,第二题(关于两个圆、正交中心与切线的复杂几何)和第三题(关于一类特殊函数的最优上界)直接满分,第四题和第五题接近满分,只有最难的第六题一分未得。

在2026年美国数学奥林匹克上,表现更令人震撼。加上测试时扩展后,SU-01同样得了35分,超过金牌线(25分)足足10分。更惊人的是,比赛报告显示当年340名参赛者中得分最高的人类选手也是35分,也就是说SU-01与人类历史最高分并列。六道题中,第三题(涉及单位圆上的等边三角形与内切圆的高难度几何)是一个格外精彩的亮点:人类选手通常用角度追逐和辅助线来解,而SU-01选择了完全不同的路径,用复数将整道题转化为一个优雅的代数框架,从而绕开了所有繁琐的几何构造,让人叹为观止。

在物理奥林匹克方面,SU-01在IPhO 2024和IPhO 2025上均超过了金牌线(分别为20.8分和19.7分),加上测试时扩展后分别达到25.3分和21.7分,是同等规模模型中的最强水平。

在更系统的基准测试上,SU-01在"可验证答案"类测试(如AMO-Bench、AIME 2025/2026等)上的平均得分是77.3%,与同体量中最强的竞争对手Qwen3.6-35B-A3B(77.4%)几乎持平,但SU-01使用的训练资源远少于后者。在"需要完整证明"的测试集IMO-ProofBench上,SU-01直接生成得分57.6%,加上测试时扩展后达到70.2%,远超所有同体量模型,并接近Gemini 3.1 Pro等大得多的商业系统。

四、训练中的数据和模型细节

要理解为什么这套配方能奏效,还需要了解一些数据准备和模型选择上的关键决策。

基础模型P1-30B-A3B是上海AI实验室之前训练的一个专注于物理奥赛的模型,本身已经有相当强的科学推理能力。选它作为起点的好处是:不需要从头建立推理能力,只需要调整推理风格,这比从零开始训练效率高得多。

SFT阶段的训练数据来源非常多样,涵盖了多个数学和理科题目来源(包括著名奥赛教练Evan Chen的材料、AoPS论坛、数学竞赛培训书籍、中文数理化论坛"数理志"、以及大规模数学数据集DeepMath),还有理科推理数据NaturalReasoning,以及编程和通用对话数据。这种多样性是刻意设计的,目的是让模型在变得更严谨的同时,不会变成只会解奥赛题的"偏科生"。训练数据全部由DeepSeek-V3.2-Speciale这个强大模型生成,再经过严格筛选,去掉低质量、被截断或超长的样本。

强化学习阶段的奖励机制设计得非常细致。答案验证采用分层策略:先用规则匹配,再用专业数学验证工具Math-Verify,最后才动用语言模型判断,既保证了准确性,又控制了成本。精粒度阶段的"证明评委"DeepSeekMath-V2部署在32块GPU上,并用了一种叫"推测解码"的加速技术,使得每次评分的速度大幅提升。

整个训练流程在成本上也相当克制:SFT阶段用8块GPU训练四轮,强化学习阶段用64块GPU训练200步。相比之下,DeepSeek-V3.2报告了在数百亿token上进行数万步预训练和后训练,而规模相似的Nemotron-Cascade 2使用了约2660万条SFT样本、多达7种不同的RL阶段。SU-01的训练规模与这些系统相比要精简许多。

五、模型在推理时如何"思考"

为了更直观地理解测试时扩展究竟在做什么,研究团队专门分析了SU-01在USAMO 2026六道题上的推理轨迹。结果非常有意思。

初始解答生成是整个过程中最"重"的阶段,平均长度约10.6万个词(相当于一本薄薄的书)。这是因为模型在这个阶段需要广泛探索解题路径,相当于在脑海中把各种可能性都试一遍。修改解答阶段同样很长,平均约8.3万词,因为模型此时需要在已有的解答框架上进行细致的局部修补,保留有价值的部分,修复有漏洞的部分。验证阶段相对简短,平均约2.87万词,主要是对完整证明进行系统性审查。而最后的"接受或拒绝"判断只需要约400个词,极为高效。

这组数据说明,测试时扩展不是简单地"多生成几个答案再投票",而是一个有结构的迭代过程:先宽后窄,先探索后精炼,先生成后审查,最终逐步收敛到高质量的证明。SU-01能稳定运行超过10万词的推理轨迹,本身就是训练成功的重要标志之一。

六、失败案例同样揭示了重要信息

理解一个系统的局限,往往和理解它的成功同样重要。SU-01在USAMO 2026第二题和IMO 2025第六题上完全失败,这两道失败题目的共同点耐人寻味。

IMO 2025第六题涉及一个2025×2025的方格网格,要求在满足特定覆盖条件下求最少所需矩形块数。SU-01生成的证明尝试将问题转化为"列置换等价"来简化,但这种转化本身是错误的——它破坏了问题中一个关键的组合结构约束。换句话说,模型找到了一个看起来很聪明的化简方法,但这个方法实际上改变了问题的本质。

USAMO 2026第二题要求证明一个关于2的幂次列表上某种操作的性质。SU-01的解答思路很完整,但在一个关键的全局策略论证上留有缺口,无法完整地将局部的合理推导组合成一个严密的整体证明。

这两种失败有一个共同的根源:在问题的核心挑战是保持某种精细的组合结构或过程不变量时,模型更容易犯错。相比之下,当问题可以被转化为一个刚性的代数或坐标框架时(比如USAMO P3用复数处理几何,或者USAMO P4用进位状态动态规划处理数位问题),SU-01表现极为出色。这说明它的优势在于将问题形式化和代数化,而真正需要保护某个"软结构"的问题则是它的弱点。

七、为什么这项研究的意义超出了数学本身

这项研究最让人印象深刻的地方,或许不是它在数学奥赛上的成绩,而是它在物理、化学、生物等其他领域的迁移表现。强化学习阶段只使用了数学和物理信号,但SU-01在化学测试FrontierScience-Olympiad上同样表现出色(69.4%),甚至在生物测试上也有25%的正确率。

更值得关注的是,在一组叫做FrontierScience-Research的"研究级"测试题上(这些题目不是奥赛风格的竞技题,而是接近科研前沿的开放性问题),SU-01在同等规模模型中排名第一,总分11.7%。听起来绝对分数不高,但要知道即使是Gemini 3.1 Pro这样的大型系统,在这组测试上也只有13.3%,所有模型的分数都很低,因为这些题目本来就极难。SU-01能在这类题目上与体量大得多的模型竞争,说明它学到的不仅是"解竞赛题的套路",而是某种更通用的科学推理能力。

研究团队把这种现象称为"可专业化的通才":模型通过数学和物理的高强度训练,获得了一种可以迁移到其他科学领域的通用推理结构,而不是变成一个只会做奥赛题的"偏科机器"。这对于AI辅助科研的未来有深远的含义——如果一个相对小巧的模型能在数学金牌级别的推理任务上表现卓越,同时还能泛化到化学、生物等领域,那么这类模型作为科研助手的潜力将远超我们现在的想象。

说到底,SU-01这个故事讲述的是一种全新的可能性:你不需要无限大的模型、无限多的数据、无限的算力,只要配方对了,一个"小而精"的模型同样能在人类智识的最高殿堂中占有一席之地。当然,这项研究也留下了很多未解的问题——比如如何让模型在"保护组合结构"这类任务上更可靠,比如测试时扩展的计算成本是否在实际应用中可以接受,比如这种方法能否进一步推广到更多科学领域。但无论如何,这已经是一个令人振奋的开始。归根结底,这项研究告诉我们的最重要一件事是:智慧的质量,比智慧的规模,更加重要。对任何对AI推理能力感兴趣的读者,都可以通过arXiv编号2605.13301查阅原始论文,深入了解其中的技术细节。

Q&A

Q1:SU-01模型在IMO 2025上的具体表现是什么?

A:SU-01在IMO 2025的六道题中,第二题(复杂几何题)和第三题(函数上界问题)直接满分7分,第四题和第五题接近满分,第六题未能解出。加上测试时扩展后,人类专家评定总分为35分,恰好达到IMO 2025金牌线,是同等规模模型中的最佳成绩。

Q2:SU-01的"测试时扩展"和普通多次采样有什么区别?

A:普通多次采样是生成多个答案再投票,而SU-01的测试时扩展是一个结构化的迭代循环:先写解答、再自我审查生成缺陷报告、再根据报告修改解答,直到连续五次审查通过或达到预算上限。每步都有明确角色,平均单次推理超过10万词,本质上是有组织的探索与精炼过程。

Q3:SU-01的训练成本与同类模型相比如何?

A:SU-01的训练相当精简:监督微调阶段用8块GPU训练33.8万条数据四轮,强化学习阶段用64块GPU训练200步。相比之下,Nemotron-Cascade 2使用了约2660万条SFT样本和7种RL阶段,DeepSeek-V3.2在数百亿token上训练了数万步。SU-01以远低于竞争对手的资源,达到了相近甚至更强的奥赛推理性能。

加载中...