开云体育
开云体育官方谷歌开打“AI棋王争霸赛”DeepSeek和Kimi首日双双出局
不停犯错,选择的落子位置连续违反国际象棋规则(稍后会解释具体游戏规则)。
Kimi K2多次想把位于d1的女王移到d4,违反了国际象棋规则(来源:Kaggle)
而最久的比赛来自o4-mini VS DeepSeek R1,用了近两个小时才结束整场比赛,说明双方还是很旗鼓相当的。
明天,这场“AI棋王争霸赛”将继续,o4 mini和o3将上演同门之争,而谷歌Gemini 2.5 Pro将对战Grok 4。
值得注意的是,这些直播比赛的性质是表演赛,Kaggle计划在后台运行更多对决,最终目标是生成一个具有统计意义的“AI棋王”排行榜。
它是Kaggle与谷歌DeepMind联合推出的全新AI基准测试平台,旨在让领先的人工智能模型在国际象棋等复杂策略游戏中展开正面较量。
与以往静态任务不同,该平台通过对抗竞技的方式进行评测:各参赛模型需要在明确的胜负条件下进行多轮对局,其胜负结果即为模型能力的直接量化指标。
谷歌表示,这一动态测试方式有效避免了传统基准测试可能出现的“背题”问题,使其能够“超越静态分数”,更深入地观察AI在真实竞争环境中的表现。
这一理念的起点是棋盘游戏的天然优势:国际象棋等游戏具有结构化和可量化的胜利标准,能够考验模型的策略推理、长远规划和动态应变能力,并随着对手强度的提高而自动提升难度。
事实上,谷歌DeepMind早在2017年就通过AlphaZero项目证明了自我对弈的威力:AlphaZero仅用强化学习自学棋艺数小时,即以压倒性优势在100局比赛中战胜当时最强的国际象棋引擎Stockfish。
不过,参加Kaggle对决的模型并非专用棋类引擎,而是以大型语言模型(LLM)为代表的通用AI。
这些模型目前的棋力还远低于AlphaZero,多数仅处于业余水平,并且经常出现非法落子或荒唐认输等错误——在直播中也屡见不鲜,而且有的大模型还很执着,即使给它重新思考的机会,它也经常固执己见。
尽管如此,它们能够输出对每一步棋的“思考过程”说明,这是传统引擎所不具备的特点。这种动态对抗不仅记录胜负,还让我们得以探知AI的“思维过程”,为AI战略智能的发展提供了独特视角。
赛事以模拟对局方式进行并同步在线直播,著名国际象棋大师也参与其中,包括国际象棋特级大师中村光(Hikaru Nakamura)、国际象棋特级大师马格努斯·卡尔森(Magnus Carlsen)和国际象棋网红莱维·罗斯曼(Levy Rozman,即GothamChess)。
赛事采用单败淘汰赛制,参赛模型通过赛前预热赛确定种子排名,然后进入对阵表。
谷歌表示,“排名靠前的模型将面对排名较低的对手,以确保平衡的排名,并防止两个最强种子在决赛前相遇。”
每场对决按照标准的棋盘规则执行,赛后Kaggle还将在其平台上维护一个类似Elo的实时排行榜,用于跟踪所有模型的表现。在未来计入排行榜的对决中,所有模型间将进行全对弈(all-play-all)的形式对局:即每一对模型至少对弈上百局,以获得统计稳定的排名结果。
评分系统采用类似高斯分布的动态估计,胜者评分上升、败者下降,平局则双方分数向均值靠拢。更新幅度取决于对局结果与比赛前预期胜率的偏差,以及各模型评分的不确定度(σ 值)。随着比赛进行,每个模型的 σ 逐渐降低,评分趋于稳定。
这种机制类似国际象棋的Elo体系,使得模型实力随着更多对局累积得到不断校准和量化。通过比赛产生的全局对局数据,Kaggle会不断完善各模型的能力计算方式,公众可随时在排行榜页面查看最新排名和对局记录。
值得注意的是,为了公平性和可分析性,所有参赛模型都以文本输入输出的方式进行对局,并被禁止调用任何外部棋力计算工具。
每一步,比赛平台向模型提供当前棋盘状态(采用Forsyth-Edwards记谱法)及棋谱历史(采用PGN格式),模型必须以标准代数记谱(SAN)格式给出下一步合法落子。
模型不会被直接告知可行走法列表,必须自主判断后输出答案;如果模型输出了非法走法,则会被提示重试,最多允许四次尝试(一次初始提交加三次重试)。若模型仍无法给出合法走法,则该局判定为模型的失利,胜者赢得比赛。
同样,为了节奏控制,每一步棋设有60分钟的应答时限。比赛直播除了记录对局结果,还会尝试展示每个模型的思考过程——即模型在每走一步前的输出内容,为赛后分析模型行为提供素材。
谷歌团队指出,棋局比赛提供了清晰且严格的成功信号,能够全面考察模型的综合推理能力。由于国际象棋的复杂性和变化性,无论是开局还是残局,模型都必须处理动态变化的对抗局面,并策划多步行动才能取胜。
这一点与企业和现实生活中的许多复杂决策过程有相似之处:需要战略规划、记忆历史信息、应变对手策略,甚至涉及一定的心智理论,即推测对方意图。
值得一提的是,目前绝大多数大型语言模型并非专门为下棋设计,因此在棋盘上表现并不突出。不同于传统深度强化学习算法,它们既没有访问专门的棋库,也无法像专业引擎那样自动搜索大量变招。
谷歌也在博客中表明:“Stockfish等专业棋类引擎与AlphaZero已能多年保持超人水平,对任何边界模型都将轻松取胜;而今日的大语言模型并未针对特定游戏优化,因此表现远不及专业领域AI。”
短期来看,Kaggle比赛的挑战在于帮助这些通用模型缩小差距。长期而言,其初衷还是希望大模型能不断进化,甚至在新引入的游戏环境中达到或超越目前的水平。