超2000万人围观AI猜世界杯：大模型准确率最高达67.3%，谁在重新定义“预测”？

新浪财经

新浪财经官方账号 06.2515:29

关注

世界杯向来不缺奇迹。但今年，绿茵场之外的另一场较量，同样吸引了大量关注——人类与AI，谁更会猜球？

在联想联合咪咕发起的“世界杯预测人机大战”中，天禧与11家头部大模型组成“AI猜球天团”，对世界杯赛果展开预测。

截至目前，后台已统计 52场比赛，累计参与人次达到 2137.44万。这意味着，超过2000万人次正在围观、参与这场特殊的“人机大战”。

这组数据本身已经足够说明问题：人们关注的，或许早已不只是足球。大家更想知道的是——AI，到底有没有判断力？

52场比赛后，AI最准已达67.3%

从最新榜单来看，12家大模型之间的竞争已进入白热化阶段。

目前排名第一的是中移九天，在52场比赛中命中35场，预测准确率达到 67.3%，暂居榜首。这意味着，在世界杯这种充满偶然性的赛事里，它已经能够做到：每3场比赛，约猜中2场。对于足球预测而言，这个成绩并不低。

紧随其后的是并列第二梯队，包括：联想天禧AI、千问、腾讯混元、商汤小浣熊，四家模型均命中 34场，准确率 65.4%。第一名与第二梯队之间仅差 1场比赛。

这种微小差距，也让榜单竞争变得异常激烈。某种程度上，大模型之间的较量已经进入“贴身肉搏”阶段——一场冷门，就可能改写整个排名。

第三梯队则包括：DeepSeek、百度文心、智谱、MiniMax。四家模型均命中 33场，准确率 63.5%。而 Kimi、讯飞星火以 57.7% 暂列其后。

整体来看，头部模型预测准确率普遍超过六成，说明AI在体育赛事分析上已经展现出较强的数据处理能力。

但更值得讨论的是：为什么一些平时讨论热度很高的大模型，并没有登顶？

通用能力强，不代表猜球一定强

从榜单看，一个有趣现象出现了。在大众认知里，像 DeepSeek、Kimi 这类模型拥有很高的讨论度，通用能力也很强；但在世界杯预测榜单上，它们并未占据绝对优势。

这说明通用大模型强，不等于体育预测一定强。因为猜球并不是简单的语言推理任务。它考验的是多维能力的叠加，换句话说，AI不只是“会说”，更要“会判断”。

这也让世界杯成为一个天然的AI试炼场——在这里，任何模型都必须接受现实结果的检验。

AI比人类更纠结：平均改1.6次预测

除了榜单，后台统计数据还揭示了一个更有意思的现象：AI远比人类更“纠结”。数据显示人类平均修改预测次数为1.04次，AI平均修改预测次数为1.6次，其中阶跃星辰平均修改3.3次，累计修改220次。也就是说，普通用户往往是：看一眼对阵、凭直觉下注、改一次最多了，但AI不同，它会不断更新判断依据首发阵容变化、伤病信息更新、赔率波动、临场新闻变化，每新增一条信息，模型都有可能重新计算结果。

于是形成一个有趣反差：人类下注靠直觉，AI下注靠迭代。从决策方式看，人和机器展现出了截然不同的逻辑。

足球仍在提醒AI：算法无法消灭偶然

尽管头部模型准确率已接近七成，但世界杯仍不断给算法上课。毕竟足球最大的魅力就在于它充满不可预测性。红牌、伤病、误判、绝杀、爆冷……任何变量，都可能在90分钟内改变比赛走向。这也是为什么，即便最准模型准确率达到 67.3%，依然意味着仍有超过三分之一的比赛会预测失误。

这或许说明了一件事：AI可以提升预测效率，却无法消灭现实世界的不确定性。尤其在足球场上，数据可以告诉你概率，但奇迹从不完全服从概率。

世界杯之外，一场更大的AI实验已经开始

当超过2000万人参与这场AI猜球大战，世界杯的意义已经不只是体育赛事。

它同时成为一个观察窗口：我们开始看到——AI如何处理复杂信息、AI如何做概率判断、人类如何信任AI等。

某种意义上，这场世界杯正在告诉我们：未来，AI未必替代人类做决定，但它很可能成为每个人身边的“第二大脑”。