新浪财经 股票

超2000万人围观AI猜世界杯:大模型准确率最高达67.3%,谁在重新定义“预测”?

新浪财经

关注

世界杯向来不缺奇迹。但今年,绿茵场之外的另一场较量,同样吸引了大量关注——人类与AI,谁更会猜球?

在联想联合咪咕发起的“世界杯预测人机大战”中,天禧与11家头部大模型组成“AI猜球天团”,对世界杯赛果展开预测。

截至目前,后台已统计 52场比赛,累计参与人次达到 2137.44万。这意味着,超过2000万人次正在围观、参与这场特殊的“人机大战”。

这组数据本身已经足够说明问题:人们关注的,或许早已不只是足球。大家更想知道的是——AI,到底有没有判断力?

52场比赛后,AI最准已达67.3%

从最新榜单来看,12家大模型之间的竞争已进入白热化阶段。

目前排名第一的是 中移九天,在52场比赛中命中35场,预测准确率达到 67.3%,暂居榜首。这意味着,在世界杯这种充满偶然性的赛事里,它已经能够做到:每3场比赛,约猜中2场。对于足球预测而言,这个成绩并不低。

紧随其后的是并列第二梯队,包括:联想天禧AI、千问、腾讯混元、商汤小浣熊,四家模型均命中 34场,准确率 65.4%。第一名与第二梯队之间仅差 1场比赛。

这种微小差距,也让榜单竞争变得异常激烈。某种程度上,大模型之间的较量已经进入“贴身肉搏”阶段——一场冷门,就可能改写整个排名。

第三梯队则包括:DeepSeek、百度文心、智谱、MiniMax。四家模型均命中 33场,准确率 63.5%。而 Kimi、讯飞星火以 57.7% 暂列其后。

整体来看,头部模型预测准确率普遍超过六成,说明AI在体育赛事分析上已经展现出较强的数据处理能力。

但更值得讨论的是:为什么一些平时讨论热度很高的大模型,并没有登顶?

通用能力强,不代表猜球一定强

从榜单看,一个有趣现象出现了。在大众认知里,像 DeepSeek、Kimi 这类模型拥有很高的讨论度,通用能力也很强;但在世界杯预测榜单上,它们并未占据绝对优势。

这说明通用大模型强,不等于体育预测一定强。因为猜球并不是简单的语言推理任务。它考验的是多维能力的叠加,换句话说,AI不只是“会说”,更要“会判断”。

这也让世界杯成为一个天然的AI试炼场——在这里,任何模型都必须接受现实结果的检验。

AI比人类更纠结:平均改1.6次预测

除了榜单,后台统计数据还揭示了一个更有意思的现象:AI远比人类更“纠结”。数据显示人类平均修改预测次数为1.04次,AI平均修改预测次数为1.6次,其中阶跃星辰平均修改3.3次,累计修改220次。也就是说,普通用户往往是:看一眼对阵、凭直觉下注、改一次最多了,但AI不同,它会不断更新判断依据首发阵容变化、伤病信息更新、赔率波动、临场新闻变化,每新增一条信息,模型都有可能重新计算结果。

于是形成一个有趣反差:人类下注靠直觉,AI下注靠迭代。从决策方式看,人和机器展现出了截然不同的逻辑。

足球仍在提醒AI:算法无法消灭偶然

尽管头部模型准确率已接近七成,但世界杯仍不断给算法上课。毕竟足球最大的魅力就在于它充满不可预测性。红牌、伤病、误判、绝杀、爆冷……任何变量,都可能在90分钟内改变比赛走向。这也是为什么,即便最准模型准确率达到 67.3%,依然意味着仍有超过三分之一的比赛会预测失误。

这或许说明了一件事:AI可以提升预测效率,却无法消灭现实世界的不确定性。尤其在足球场上,数据可以告诉你概率,但奇迹从不完全服从概率。

世界杯之外,一场更大的AI实验已经开始

当超过2000万人参与这场AI猜球大战,世界杯的意义已经不只是体育赛事。

它同时成为一个观察窗口:我们开始看到——AI如何处理复杂信息、AI如何做概率判断、人类如何信任AI等。

某种意义上,这场世界杯正在告诉我们:未来,AI未必替代人类做决定,但它很可能成为每个人身边的“第二大脑”。

而世界杯,只是开始。下一次,当你准备做重要选择时——你会先相信自己的直觉,还是先问问AI?

加载中...