谷歌DeepMind捅破AI数学推理上限 IMO竞赛达银牌水准

导读谷歌DeepMind捅破AI数学推理上限7月26日，谷歌DeepMind团队公布了一项研究进展，他们在博客中介绍，自主研发的AlphaProof和AlphaGeometry ...

谷歌DeepMind捅破AI数学推理上限

7月26日，谷歌DeepMind团队公布了一项研究进展，他们在博客中介绍，自主研发的AlphaProof和AlphaGeometry 2两款AI模型成功挑战了数学领域的高级逻辑难题，达到了国际数学奥林匹克竞赛(IMO)银牌水平的解题能力。

AlphaProof是运用强化学习构建的创新数学推理系统，而AlphaGeometry 2则是对原有几何问题求解系统的优化升级。通过这两个模型的协同工作，DeepMind团队在本年度IMO的6个赛题中攻克了4题，首次与IMO银牌获奖者的解题成绩比肩。

为了确保评估的公正性和专业性，DeepMind组建了一个由顶尖数学家构成的评审小组，成员包括IMO金牌得主及菲尔兹奖获得者蒂莫西·高尔斯教授，以及两度摘得IMO金牌、现任IMO 2024年问题挑选委员会主席的约瑟夫-迈尔斯博士。他们依据IMO的标准对AI解题成果进行了评判。

AI模型的运作机制涉及将IMO的赛题转化为模型可解读的数学表述。具体而言，AlphaProof专注于代数和数论问题，不仅找出了两个问题的答案，还完成了证明，其中一个被证实是最具挑战性的题目，仅本届IMO中有5名选手成功解答。AlphaGeometry 2则专注于几何题，但在组合问题上未能找到解决方案。

按照IMO的计分制度，每题满分为7分，总分42分。DeepMind的这套系统总共获得了28分，意味着每道被解决的问题均得到了满分，这一成绩等同于银牌选手的顶级表现。尽管如此，2024年金奖的最低分数线设定在29分，当年共有58名参赛者在609人的激烈竞争中赢得了金奖殊荣。