开云体育
开云体育官方GPT-5危了!DeepSeek开源世界首个奥数金牌AI正面硬刚谷歌
【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。
当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。
Putnam 2024:得分118接近满分(120分),超越人类参赛者最高分(90分)。
论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。
而且,他们还Scaling了验证器算力,来标注更复杂的证明,进一步优化了验证器本身。
这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。
在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。
但到了数学皇冠上的明珠——国际数学奥林匹克(IMO)这个级别,这种方法就彻底失效了。
因为IMO的题目往往没有简单的数值答案,而是要求你写出一段逻辑无懈可击的证明过程。
以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。
DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。
为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:
但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」
这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。
于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。
用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。
在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做。
随着生成器水平提升,它会产生越来越「刁钻」的新证明,这些证明反过来又会暴露出验证器尚未覆盖的薄弱点。
尤其是那些「验证器第一次尝试没能抓出问题」的证明样本,对进一步训练验证器来说价值极高。
在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。
DeepMind像是拥有无尽资源的贵族,其实力毋庸置疑,在某些高级基准测试(如IMO-ProofBench Advanced)上依然保持领先。
DeepSeek则像是半路杀出的天才少年。根据DeepSeek的论文,他们的V2模型在基础测试集(ProofBench Basic)上已经反超了Gemini Deep Think,并且在公开的竞赛题目上展现出了惊人的统治力。
这为全世界的AI研究者提了个醒:通往AGI的路上,自验证可能比单纯堆算力更重要。
这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。
如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。
研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。
真正让DeepSeekMath-V2与众不同的,是它在连续修正实验中的表现。
在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。
实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成,奇迹就发生了:
反复思考(迭代8次):当允许模型最多进行8次「自我修正」后,证明的质量分数飙升到了0.27。
更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。
这证实了一个关键点:模型不仅能改错,而且非常有自知之明,它清楚地知道自己哪个答案是最好的。
前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。
3.优胜劣汰:只有那些能通过所有64次验证的证明,才会被认为是「完全可信」的。
正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。
实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。
DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。
当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。


2025-11-29
浏览次数:
次
返回列表