上海AI实验室联合清华、北大等造出"30亿参数数学奥赛金牌选手"

市场资讯 05.21 21:02

（来源：科技行者）

这项由上海人工智能实验室、香港中文大学、清华大学、上海交通大学、北京大学等机构联合开展的研究，于2026年5月13日以预印本形式发布，编号为arXiv:2605.13301v1，感兴趣的读者可通过该编号在arXiv平台查阅完整论文。

数学奥林匹克竞赛，简称"奥赛"，一直被认为是人类智慧的极限挑战之一。哪怕是全球最顶尖的高中生，面对国际数学奥林匹克（IMO）的六道题目，也往往需要耗尽数小时甚至整整两天的时间，绞尽脑汁才能解出其中几道。而现在，一个大约只有30亿参数的AI模型（相比之下，GPT系列的参数量往往是其数十倍），不仅能拿下IMO 2025的金牌分数，还能在美国数学奥林匹克（USAMO 2026）上达到有史以来人类参赛者的最高分水平。

这个模型叫做SU-01，而它背后的训练秘诀，用研究团队自己的话来说，是一套"简单而统一"的配方。这篇博客就来把这套配方拆解清楚，告诉你它到底做了什么，为什么有效，以及这对AI的未来意味着什么。

一、为什么奥赛数学是AI的"珠穆朗玛峰"

普通人可能会觉得，数学题不就是算算数嘛，AI不是早就能秒杀吗？但奥赛数学和普通的计算题有本质区别。普通计算题就像按照菜谱炒一道菜，只要照步骤来就好；奥赛数学题更像是给你一堆食材，让你在没有菜谱的情况下，发明一道前所未见的菜，而且这道菜还必须让最挑剔的美食评委打出满分。

具体来说，奥赛题要求解题者必须完成三件非常困难的事。第一，在几乎无限多的可能解题路径里，找到那条能走通的；第二，每一步推导都要严格有据，不能有半点逻辑跳跃；第三，最终呈现出一份从头到尾无懈可击的完整证明，能经受住专家级评委的严格打分。

即使是非常强大的AI，过去也只能做到"猜出答案"，却无法写出严谨的推导过程。更麻烦的是，就算猜对了答案，如果证明过程有漏洞，评委也会扣分。这就是为什么奥赛数学被视为AI推理能力的"珠穆朗玛峰"——你不仅要登上山顶，还要把登山的每一步都记录在案、清清楚楚。

正因如此，谷歌DeepMind此前研发的AlphaProof和AlphaGeometry 2，虽然在2024年的IMO上达到银牌水平，但那些系统专门为数学打造，依赖大量特殊的形式化工具和巨额计算资源。而SU-01的目标更野心勃勃：用一套通用的、相对经济的配方，把一个已经具备基础能力的模型，改造成能在数学和物理奥赛上拿金牌的"全科选手"。

二、训练SU-01的"四步烹饪法"

研究团队把整个训练过程比作一套分阶段的配方，总共四个步骤，每一步都有非常明确的目标和设计逻辑。用一个更直观的比喻来理解：这四步就像把一个已经会基本厨艺的厨师，培养成米其林三星主厨的过程。

第一步叫做"行为塑形"，英文缩写SFT，即监督微调。这一步的核心目的不是让模型学更多知识，而是改变它思考问题的方式。研究团队发现，他们选用的基础模型P1-30B-A3B本来就很能干，但它解题的风格更像是一个聪明但粗心的学生——答案有时候猜对了，但论证过程松散，缺少奥赛级别的严谨性。

为了改变这种习惯，团队精心准备了一批高质量的"示范解题"：不仅有直接解题的过程，还有自我检验的过程（解完之后回头检查有没有漏洞），以及自我纠错的过程（发现漏洞之后重新推导）。这批数据涵盖数学、理科、编程和通用问答，共筛选出33.8万条轨迹，每条轨迹长度都控制在8192个词以内，确保信号质量。

这里有个非常精妙的细节，叫做"逆困难度课程"。通常训练AI时，人们倾向于先给简单的例子，再给难的。但研究团队反其道而行之：他们先计算每条训练数据对当前模型来说有多"陌生"（用"困惑度"这个指标衡量），然后从最陌生、最不熟悉的例子开始训练，最后才是熟悉的例子。这就好比一个厨师要学新菜，先从完全没做过的菜式下手，让大脑保持最强的学习警觉状态，等到新习惯基本成形再巩固已有的功底。实验结果表明，这种顺序能让模型在吸收新的思维方式的同时，更好地保留原有的能力。

第二步叫做"粗粒度强化学习"。经过第一步训练，模型的思维风格变了，但解题能力还需要通过大量实战来打磨。这一步引入了强化学习：模型反复解题，每次答对就得到正向反馈，答错就得到负向反馈，从而不断提升解题成功率。这一步用的题目是有标准答案的，可以自动验证对错，因此反馈非常可靠高效，共训练了96步。

第三步叫做"精粒度强化学习"，这才是真正针对奥赛的核心训练。到了这一步，研究团队意识到光会猜对答案还不够，证明的质量同样关键。于是他们引入了一个更强大的"评委"——DeepSeekMath-V2（一个专门评判数学推导质量的AI），不再只看答案对不对，而是看整个证明过程是否严谨、完整、没有逻辑漏洞。

这一步还额外加入了两个机制。其一叫"自我精炼"：如果模型解了一道题但评委打分很低，这道题就会被重新包装成一个新任务——"这是你之前的错误解法，请找出问题并重新解一遍"。这等于强迫模型学会反思和改错。其二叫"经验回放"：如果模型在某道很难的题上偶尔解对了，这条成功轨迹会被专门保存下来反复学习，确保这种难得的成功经验不会被遗忘。这两个机制加在一起，共训练了104步。

第四步叫做"测试时扩展"，也就是在实际解题时多给模型一些时间和机会。这一步不需要额外训练，而是在推理阶段引入一个循环：模型先写出一个解答，然后切换成"检查员"角色，仔细审查自己的解答有没有漏洞并出具一份"缺陷报告"，再根据报告修改解答，如此反复。如果连续五次检查都通过了，就接受这个解答；如果连续十次检查都通不过，就放弃这条路重新来。每道题最多允许运行十个独立的解题流程，最终选出通过审查的最佳解答。

三、这套配方达到了什么成绩

成绩单非常亮眼。在2025年国际数学奥林匹克上，SU-01在不使用测试时扩展的情况下，自动评测得了21分，已经超过铜牌线；加上测试时扩展后，人类专家评定的最终得分是35分，恰好踩在金牌线（35分）上。六道题中，第二题（关于两个圆、正交中心与切线的复杂几何）和第三题（关于一类特殊函数的最优上界）直接满分，第四题和第五题接近满分，只有最难的第六题一分未得。

在2026年美国数学奥林匹克上，表现更令人震撼。加上测试时扩展后，SU-01同样得了35分，超过金牌线（25分）足足10分。更惊人的是，比赛报告显示当年340名参赛者中得分最高的人类选手也是35分，也就是说SU-01与人类历史最高分并列。六道题中，第三题（涉及单位圆上的等边三角形与内切圆的高难度几何）是一个格外精彩的亮点：人类选手通常用角度追逐和辅助线来解，而SU-01选择了完全不同的路径，用复数将整道题转化为一个优雅的代数框架，从而绕开了所有繁琐的几何构造，让人叹为观止。

在物理奥林匹克方面，SU-01在IPhO 2024和IPhO 2025上均超过了金牌线（分别为20.8分和19.7分），加上测试时扩展后分别达到25.3分和21.7分，是同等规模模型中的最强水平。

在更系统的基准测试上，SU-01在"可验证答案"类测试（如AMO-Bench、AIME 2025/2026等）上的平均得分是77.3%，与同体量中最强的竞争对手Qwen3.6-35B-A3B（77.4%）几乎持平，但SU-01使用的训练资源远少于后者。在"需要完整证明"的测试集IMO-ProofBench上，SU-01直接生成得分57.6%，加上测试时扩展后达到70.2%，远超所有同体量模型，并接近Gemini 3.1 Pro等大得多的商业系统。

四、训练中的数据和模型细节

要理解为什么这套配方能奏效，还需要了解一些数据准备和模型选择上的关键决策。

基础模型P1-30B-A3B是上海AI实验室之前训练的一个专注于物理奥赛的模型，本身已经有相当强的科学推理能力。选它作为起点的好处是：不需要从头建立推理能力，只需要调整推理风格，这比从零开始训练效率高得多。

SFT阶段的训练数据来源非常多样，涵盖了多个数学和理科题目来源（包括著名奥赛教练Evan Chen的材料、AoPS论坛、数学竞赛培训书籍、中文数理化论坛"数理志"、以及大规模数学数据集DeepMath），还有理科推理数据NaturalReasoning，以及编程和通用对话数据。这种多样性是刻意设计的，目的是让模型在变得更严谨的同时，不会变成只会解奥赛题的"偏科生"。训练数据全部由DeepSeek-V3.2-Speciale这个强大模型生成，再经过严格筛选，去掉低质量、被截断或超长的样本。

强化学习阶段的奖励机制设计得非常细致。答案验证采用分层策略：先用规则匹配，再用专业数学验证工具Math-Verify，最后才动用语言模型判断，既保证了准确性，又控制了成本。精粒度阶段的"证明评委"DeepSeekMath-V2部署在32块GPU上，并用了一种叫"推测解码"的加速技术，使得每次评分的速度大幅提升。

整个训练流程在成本上也相当克制：SFT阶段用8块GPU训练四轮，强化学习阶段用64块GPU训练200步。相比之下，DeepSeek-V3.2报告了在数百亿token上进行数万步预训练和后训练，而规模相似的Nemotron-Cascade 2使用了约2660万条SFT样本、多达7种不同的RL阶段。SU-01的训练规模与这些系统相比要精简许多。

五、模型在推理时如何"思考"

为了更直观地理解测试时扩展究竟在做什么，研究团队专门分析了SU-01在USAMO 2026六道题上的推理轨迹。结果非常有意思。

初始解答生成是整个过程中最"重"的阶段，平均长度约10.6万个词（相当于一本薄薄的书）。这是因为模型在这个阶段需要广泛探索解题路径，相当于在脑海中把各种可能性都试一遍。修改解答阶段同样很长，平均约8.3万词，因为模型此时需要在已有的解答框架上进行细致的局部修补，保留有价值的部分，修复有漏洞的部分。验证阶段相对简短，平均约2.87万词，主要是对完整证明进行系统性审查。而最后的"接受或拒绝"判断只需要约400个词，极为高效。

这组数据说明，测试时扩展不是简单地"多生成几个答案再投票"，而是一个有结构的迭代过程：先宽后窄，先探索后精炼，先生成后审查，最终逐步收敛到高质量的证明。SU-01能稳定运行超过10万词的推理轨迹，本身就是训练成功的重要标志之一。

六、失败案例同样揭示了重要信息

理解一个系统的局限，往往和理解它的成功同样重要。SU-01在USAMO 2026第二题和IMO 2025第六题上完全失败，这两道失败题目的共同点耐人寻味。

IMO 2025第六题涉及一个2025×2025的方格网格，要求在满足特定覆盖条件下求最少所需矩形块数。SU-01生成的证明尝试将问题转化为"列置换等价"来简化，但这种转化本身是错误的——它破坏了问题中一个关键的组合结构约束。换句话说，模型找到了一个看起来很聪明的化简方法，但这个方法实际上改变了问题的本质。

USAMO 2026第二题要求证明一个关于2的幂次列表上某种操作的性质。SU-01的解答思路很完整，但在一个关键的全局策略论证上留有缺口，无法完整地将局部的合理推导组合成一个严密的整体证明。

这两种失败有一个共同的根源：在问题的核心挑战是保持某种精细的组合结构或过程不变量时，模型更容易犯错。相比之下，当问题可以被转化为一个刚性的代数或坐标框架时（比如USAMO P3用复数处理几何，或者USAMO P4用进位状态动态规划处理数位问题），SU-01表现极为出色。这说明它的优势在于将问题形式化和代数化，而真正需要保护某个"软结构"的问题则是它的弱点。

七、为什么这项研究的意义超出了数学本身

这项研究最让人印象深刻的地方，或许不是它在数学奥赛上的成绩，而是它在物理、化学、生物等其他领域的迁移表现。强化学习阶段只使用了数学和物理信号，但SU-01在化学测试FrontierScience-Olympiad上同样表现出色（69.4%），甚至在生物测试上也有25%的正确率。

更值得关注的是，在一组叫做FrontierScience-Research的"研究级"测试题上（这些题目不是奥赛风格的竞技题，而是接近科研前沿的开放性问题），SU-01在同等规模模型中排名第一，总分11.7%。听起来绝对分数不高，但要知道即使是Gemini 3.1 Pro这样的大型系统，在这组测试上也只有13.3%，所有模型的分数都很低，因为这些题目本来就极难。SU-01能在这类题目上与体量大得多的模型竞争，说明它学到的不仅是"解竞赛题的套路"，而是某种更通用的科学推理能力。

研究团队把这种现象称为"可专业化的通才"：模型通过数学和物理的高强度训练，获得了一种可以迁移到其他科学领域的通用推理结构，而不是变成一个只会做奥赛题的"偏科机器"。这对于AI辅助科研的未来有深远的含义——如果一个相对小巧的模型能在数学金牌级别的推理任务上表现卓越，同时还能泛化到化学、生物等领域，那么这类模型作为科研助手的潜力将远超我们现在的想象。

说到底，SU-01这个故事讲述的是一种全新的可能性：你不需要无限大的模型、无限多的数据、无限的算力，只要配方对了，一个"小而精"的模型同样能在人类智识的最高殿堂中占有一席之地。当然，这项研究也留下了很多未解的问题——比如如何让模型在"保护组合结构"这类任务上更可靠，比如测试时扩展的计算成本是否在实际应用中可以接受，比如这种方法能否进一步推广到更多科学领域。但无论如何，这已经是一个令人振奋的开始。归根结底，这项研究告诉我们的最重要一件事是：智慧的质量，比智慧的规模，更加重要。对任何对AI推理能力感兴趣的读者，都可以通过arXiv编号2605.13301查阅原始论文，深入了解其中的技术细节。

Q&A

Q1：SU-01模型在IMO 2025上的具体表现是什么？

A：SU-01在IMO 2025的六道题中，第二题（复杂几何题）和第三题（函数上界问题）直接满分7分，第四题和第五题接近满分，第六题未能解出。加上测试时扩展后，人类专家评定总分为35分，恰好达到IMO 2025金牌线，是同等规模模型中的最佳成绩。

Q2：SU-01的"测试时扩展"和普通多次采样有什么区别？

A：普通多次采样是生成多个答案再投票，而SU-01的测试时扩展是一个结构化的迭代循环：先写解答、再自我审查生成缺陷报告、再根据报告修改解答，直到连续五次审查通过或达到预算上限。每步都有明确角色，平均单次推理超过10万词，本质上是有组织的探索与精炼过程。

Q3：SU-01的训练成本与同类模型相比如何？

A：SU-01的训练相当精简：监督微调阶段用8块GPU训练33.8万条数据四轮，强化学习阶段用64块GPU训练200步。相比之下，Nemotron-Cascade 2使用了约2660万条SFT样本和7种RL阶段，DeepSeek-V3.2在数百亿token上训练了数万步。SU-01以远低于竞争对手的资源，达到了相近甚至更强的奥赛推理性能。