开云体育

开云体育官方GPT-5危了!DeepSeek开源世界首个奥数金牌AI正面硬刚谷歌

2025-11-29
浏览次数:
返回列表

  开云体育[永久网址:363050.com]成立于2022年在中国,是华人市场最大的线上娱乐服务供应商而且是亚洲最大的在线娱乐博彩公司之一。包括开云、开云棋牌、开云彩票、开云电竞、开云电子、全球各地赛事、动画直播、视频直播等服务。开云体育,开云体育官方,开云app下载,开云体育靠谱吗,开云官网,欢迎注册体验!

开云体育官方GPT-5危了!DeepSeek开源世界首个奥数金牌AI正面硬刚谷歌

  【新智元导读】沉寂许久的DeepSeek又回来了!今天,DeepSeekMath-V2重磅登场,一举夺下IMO 2025金牌,实力媲美甚至超越了谷歌的IMO金牌模型,开源AI再次扳回一局。

  当前,已官宣拿下金牌的两大模型,一款来自谷歌Gemini Deep Think,另一款便来自OpenAI的内部模型。

  Putnam 2024:得分118接近满分(120分),超越人类参赛者最高分(90分)。

  论文中,团队训练了一个基于LLM验证器(Verifier)作为奖励函数,并以此训练模型以自主解决问题。

  而且,他们还Scaling了验证器算力,来标注更复杂的证明,进一步优化了验证器本身。

  这不仅让它在最难的数学竞赛中横扫人类顶尖选手,更重要的是,它揭示了通往更高级AI的一条必经之路——学会自我反思。

  在过去,训练AI做数学题的方法很简单:给它一道题,如果它算出的答案和标准答案一致,就给它奖励。

  但到了数学皇冠上的明珠——国际数学奥林匹克(IMO)这个级别,这种方法就彻底失效了。

  因为IMO的题目往往没有简单的数值答案,而是要求你写出一段逻辑无懈可击的证明过程。

  以前的AI在这里经常是个「大忽悠」,它能胡编乱造一通看起来很专业的数学黑话,最后强行得出一个结论。虽然它可能蒙对了结果,但过程全是漏洞。

  DeepSeekMath-V2决定从根本上改变规则,不仅要奖励正确的答案,更要奖励严谨的「自我找茬」过程。

  为了实现这种「自我反思」,DeepSeek设计了一套精妙的「左右互搏」系统,就像在AI的大脑里住了三个人:

  但与以往不同,它被训练成不仅要写答案,还要写一段「自我评价」。它必须诚实地说:「这步我有点不确定,可能是错的。」

  这是DeepSeek专门训练的一个评分模型。它不看答案对不对,而是专门盯着证明过程挑刺。它会像阅卷老师一样,给证明打分(0分、0.5分、1分),并指出具体的逻辑漏洞。

  于是DeepSeek又引入了一个「元验证」机制,专门检查「判官」是不是在胡乱挑刺。如果「判官」指出了一个不存在的错误,它会被「审计员」打手板。

  用元验证器来评估验证器输出分析的平均质量分数,从0.85提升到了0.96,同时保持了原有的打分准确率。

  在这三者的配合下,DeepSeekMath-V2甚至能做到在没有标准答案的情况下,自己给自己出题、自己做、自己批改、自己重做。

  随着生成器水平提升,它会产生越来越「刁钻」的新证明,这些证明反过来又会暴露出验证器尚未覆盖的薄弱点。

  尤其是那些「验证器第一次尝试没能抓出问题」的证明样本,对进一步训练验证器来说价值极高。

  在最后两轮训练迭代中,这条全自动标注流水线已经完全替代了人工标注。后续的质量检查表明,自动生成的标签与人类专家的判断高度一致。

  DeepMind像是拥有无尽资源的贵族,其实力毋庸置疑,在某些高级基准测试(如IMO-ProofBench Advanced)上依然保持领先。

  DeepSeek则像是半路杀出的天才少年。根据DeepSeek的论文,他们的V2模型在基础测试集(ProofBench Basic)上已经反超了Gemini Deep Think,并且在公开的竞赛题目上展现出了惊人的统治力。

  这为全世界的AI研究者提了个醒:通往AGI的路上,自验证可能比单纯堆算力更重要。

  这一令人惊叹的成绩背后,是DeepSeekMath-V2在实验中展现出的某种「反直觉」的进化特征。

  如果剥离掉所有复杂的反复思考和验证过程,只看模型的「第一直觉」——也就是所谓的One-Shot能力,DeepSeekMath-V2依然表现出了统治级的实力。

  研究团队构建了一个包含代数、几何、数论、组合和不等式五大类难题的内部测试集CNML(难度对标中国高中数学联赛)。

  真正让DeepSeekMath-V2与众不同的,是它在连续修正实验中的表现。

  在面对IMO候选题(Shortlist)这种级别的难题时,模型往往无法一次性写出完美的证明。

  实验显示,如果允许模型进行「自我验证」——即生成答案后,自己挑毛病,然后带着问题重新生成,奇迹就发生了:

  反复思考(迭代8次):当允许模型最多进行8次「自我修正」后,证明的质量分数飙升到了0.27。

  更有趣的是,如果让模型从自己生成的32个解法中挑一个最好的(Best@32),它的评分准确度极高,得分直接跃升至0.42。

  这证实了一个关键点:模型不仅能改错,而且非常有自知之明,它清楚地知道自己哪个答案是最好的。

  前文提到的普特南数学竞赛118分(接近满分)的「神迹」,并非仅靠运气,而是得益于一种「高算力搜索」(High-Compute Search)策略。

  3.优胜劣汰:只有那些能通过所有64次验证的证明,才会被认为是「完全可信」的。

  正是这种「千锤百炼」的策略,让模型解决了IMO 2025中6道题里的5道,以及在CMO 2024中拿下金牌水平。

  实验数据还揭示了一个有趣的现象:对于那些它没做出来的题,模型通常能准确地找出自己证明中的漏洞;而对于做出来的题,则是真真切切地通过了所有考验。

  DeepSeekMath-V2的成功告诉我们,AI正在从「模仿人类说话」进化到「模仿人类思考」。

  当我们看到AI开始在输出最终结果前,懂得停下来,对自己说一句「这看起来不太对,我再算一遍」时,那才是它真正超越工具属性的时刻。

  本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

搜索