AI工具达到国际奥数金牌选手水平
中国科学报
图片来源:Sebastien Bozon/AFP
本报讯 一年前,美国谷歌旗下DeepMind公司开发的人工智能(AI)工具AlphaGeometry,在国际数学奥林匹克竞赛(IMO)中达到银牌选手的水平,震惊了世界。DeepMind团队现在表示,系统升级后的AlphaGeometry2的性能已达到IMO金牌选手的水平。2月5日,相关研究成果公布于预印本服务器arXiv。
IMO是为有天赋的高中生设置的难度极高的数学竞赛。英国伦敦帝国理工学院的数学家Kevin Buzzard说:“我想用不了多久,计算机就能在IMO上获得满分了。”
解决欧几里得几何问题是IMO的4个主题之一,其他主题包括数论、代数和组合学的分支。几何学要求AI具备特定的技能,因为参赛者必须为平面几何图像的陈述提供严格的证明。去年7月,AlphaGeometry2与新推出的AlphaProof系统一起公开亮相,后者是DeepMind为解决IMO的非几何问题而开发的。
AlphaGeometry由包括专门语言模型、“神经符号”系统在内的多个组件构成。“神经符号”系统不像神经网络那样通过学习数据训练,而是由人类编码的抽象推理系统进行。该团队训练语言模型使用正式的数学语言,这使它能够自动检查其输出逻辑的严谨性,并消除AI聊天机器人容易产生的“幻觉”,即不连贯或错误的陈述。
对于AlphaGeometry2,该团队进行了几项改进,如集成了谷歌最先进的大型语言模型Gemini。此外,他们还引入了在平面上移动几何图像进行推理的功能,例如,沿直线移动一个点以改变三角形的高度,并求解线性方程。
最终,该系统能够解决过去25年IMO中84%的几何问题,而第一代AlphaGeometry只能解决其中的54%。
DeepMind的研究人员表示,AlphaGeometry未来的改进将包括处理涉及不等式和非线性方程的数学问题,而这需要“完全解决几何问题”。
第一个在整体测试中达到金牌分数的AI系统可以赢得“人工智能数学奥林匹克奖”的500万美元奖金。不过,该竞赛要求系统是开源的,但DeepMind的情况并非如此。
Buzzard说,尽管这些问题很难,但这门学科在概念上仍然很简单。在AI能够在研究数学的层面上解决问题之前,还有许多挑战需要应对。
AI研究人员热切期待今年7月在澳大利亚举行的下一届IMO。一旦问题对人类参赛者公开,AI系统也有机会解决它们。不过,AI不被允许参加比赛,因此没有资格获得奖牌。(文乐乐)
相关论文信息:
https://arxiv.org/abs/2502.03544v1