12个国产大模型猜了24场球，最后拼的不是懂球，是风险偏好

新浪财经

新浪财经官方账号 06.1818:44

关注

导语：联想集团与咪咕共同发起的“世界杯预测人机大战”，迎来了小组赛第一轮24场的结束。截至目前，百度文心领跑，联想天禧AI、中移九天、腾讯混元并列第二。但这场实验真正有意思的地方，不是谁多猜中一场，而是12个大模型第一次在全民可见的场景里，同时暴露了自己的决策性格。

6月18日凌晨，乌兹别克斯坦1：3不敌哥伦比亚。随着终场哨响，2026世界杯小组赛首轮24场全部结束。对于球迷来说，这是48支球队第一次亮相后的实力摸底；对于AI行业来说，它也是一场罕见的公开考试。

在联想集团与咪咕视频共同发起的“世界杯预测人机大战”中，12个国内主流AI被放进同一张赛程表：联想天禧AI、DeepSeek、通义千问、百度文心、腾讯混元、Kimi、智谱、MiniMax、阶跃、讯飞星火、商汤小浣熊、中移九天，逐场给出胜平负和比分预测。24场比赛之后，百度文心以14/24、58.3%的命中率暂列第一；联想天禧AI、中移九天、腾讯混元同为13/24、54.2%，并列第二；MiniMax、DeepSeek、通义千问、智谱、商汤小浣熊均为12/24，刚好50%；Kimi和讯飞星火11/24；阶跃6/24，暂居末位。

如果只看这张榜单，它像是一份普通的AI猜球成绩单，但深究细节，还有更多信息值得深看。

12大AI在24场比赛中一共给出288次胜平负预测，合计命中141次，整体命中率为49.0%。放在参照系里看，如果赛前什么模型都不用，只是查一下球队强弱、FIFA排名和主流赔率，每场押更被看好的那一方，很多比赛的方向判断未必会差太多。百度文心暂时领先，不是因为它展现了某种“预言家能力”，而是因为它在强弱分明的场次里足够稳，在少数非共识场次里又没有完全掉队。

这恰恰是这场实验最有价值的地方，它不是在证明AI到底能不能预测世界杯。答案并不复杂：AI能猜中一部分，但离真正“懂球”还很远，更重要的是，这或许是少见的一次，让十几家大模型在一个普通人完全能看懂的场景里，同时、公开、连续地暴露出各自的决策偏好。

实验室里的评测有复杂指标，排行榜有技术话术，SOTA分数往往只有行业内的人看得明白。但世界杯不一样——墨西哥2：0南非就是2：0，巴西1：1摩洛哥就是1：1，猜对就是猜对，猜错就是猜错。没有模型公司能解释掉一个丢掉的进球，也没有提示工程能挽回一次终场前的绝平。

在这个意义上，世界杯成了一个少见的开放世界压力测试：同一时间，同一赛题，同一标准，每天出结果。谁保守，谁激进，谁跟随共识，谁敢反共识，24场比赛像24面镜子，一场一场照了出来。

一

先把视野拉远一点。在AI迅速进入大众生活的背景下，2026世界杯也成了各家模型展示能力的新舞台。AI猜球不再只是球迷娱乐，而开始承担一种更直观的产品展示功能。

联想集团和咪咕做的是一套横向擂台，把12个国产AI放到同一张榜单上逐场比较。不同模型也都在借世界杯寻找更容易被普通用户理解的应用场景。有的直接在产品内上线足球预测助手，有的用长篇报告展示多Agent、概率模型等复杂任务拆解能力，也有媒体和内容创作者把不同模型放进同一场预测实验里。

这些动作看起来都是世界杯营销，但背后却是——AI公司需要一个普通用户能理解的应用场景，来证明大模型不只是会写总结、改PPT、做客服，也能参与现实世界里的复杂判断。

足球恰好满足这个条件。它有数据，有历史，有排名，有阵容，有胜负的概率；但它又不完全服从数据。一个门柱、一张红牌、一次VAR、一次门将脱手，就足以推翻赛前所有看似合理的推演。它既不是纯随机，也不是纯理性；既有规律，又永远留着例外。

这也是为什么世界杯比很多闭门评测更残酷，传统AI评测通常考的是模型在确定题目上的能力，而足球考的是模型面对不确定性时如何下注。它不只考知识，也考风险偏好；不只考推理，也考模型到底愿不愿意承认“这场比赛可能没有赢家”。

首轮24场之后，答案已经很清楚：大多数AI很会识别强弱，但不太会理解僵持。

在15场分出胜负的比赛中，12大AI合计180次预测，命中138次，命中率为76.7%。德国7：1库拉索、瑞典5：1突尼斯、阿根廷3：0阿尔及利亚、奥地利3：1约旦，12家AI全部猜中方向；墨西哥2：0南非、法国3：1塞内加尔、英格兰4：2克罗地亚、加纳1：0巴拿马、哥伦比亚3：1乌兹别克斯坦，都有11家AI命中。

这些比赛的共同点是，赛前强弱关系相对清晰，结果也大体兑现了主流预期。换句话说，在“强队应该赢”的共识题上，大模型表现并不差。它们能整合公开信息、历史战绩、阵容实力和舆论判断，给出一个大概率答案。

问题出现在另一边。

首轮24场里，一共有9场平局，12大AI合计108次预测，只命中3次，命中率只有2.8%。

这不是某一家模型的失误，而是几乎所有模型的共同盲区。它们习惯于在两支球队之间找出更强的一方，然后相信优势会兑现。但足球里经常出现另一种结果：强者没能把优势转化为胜利，弱者也没有完成逆袭，比赛被拖入一个互相抵消的状态。

对一个老球迷来说，“这场可能打平”不是玄学。小组赛首轮，很多球队不急于冒险；弱队愿意低位防守，强队也常常还在试探；旅途、气候、首战心理、战术保守性，都会把比赛推向僵持。但在大模型的答案里，平局几乎是一个被系统性低配的选项。

这正是AI预测世界杯最有意思的地方。平局不是一个比分问题，而是一个认知问题。模型能不能承认“没有赢家”本身也是一种高概率结果，决定了它是否真正理解不确定性。

二

如果说平局暴露的是AI的集体盲区，那么各家模型在24场里的分布，则开始显出不同的“决策性格”。

百度文心暂时领跑，靠的不是冒险，而是低波动。它大多数时候站在共识一边，不追极端比分，也不频繁押冷门；但它不是简单机械地押强队。科特迪瓦1：0厄瓜多尔一战，百度文心不仅猜中科特迪瓦胜，还精准命中1：0比分；澳大利亚2：0土耳其，它也是仅有的两家命中方向的模型之一。它的领先更像一个低风险组合：共识题不轻易丢分，少数反共识场次还能捡到额外收益。

联想天禧AI的画像更像稳定型第一梯队。24场猜中13场，与中移九天、腾讯混元并列第二。它很少给出夸张比分，2：0、2：1是更常见的答案；在德国、瑞典、阿根廷、法国、英格兰、加纳、哥伦比亚这些优势方题目中，它基本没有掉队；在科特迪瓦击败厄瓜多尔这类相对不那么主流的比赛里，也站对了方向。天禧AI不是靠某一次惊艳命中冲到前面，而是在24场样本里持续保持稳定。对于一场由联想集团和咪咕共同发起的人机大战来说，这个成绩的传播意义也在这里：它不是“出圈型选手”，更像一个能长期待在第一梯队里的模型。

中移九天的辨识度来自另一个方向。荷兰2：2日本一战，12家AI中只有中移九天预测平局，虽然比分给的是1：1，但方向命中。在首轮AI几乎不会说平的背景下，这个判断含金量很高。它说明中移九天的输出分布里，至少给“僵持”留了位置。这不是说它比其他模型更懂球，而是它在风险选择上没有完全被强弱叙事锁死。

腾讯混元同样24场中13，更像实用主义共识派。它没有太多独家高光，也没有大面积离谱失误。大多数强弱题跟住正确方向，少数非共识题也没有完全掉队。它的特点不是锋利，而是少犯错。在这类短样本竞赛里，少犯错本身就是一种优势。

MiniMax排在中游，24场猜中一半，但它是首轮最值得单独观察的模型之一。韩国2：1捷克，12家AI中只有MiniMax预测韩国胜，而且比分正是2：1；澳大利亚2：0土耳其，只有百度文心和MiniMax命中澳大利亚胜，MiniMax同样给出了2：0。MiniMax不是没有洞察，它甚至抓住了几场含金量很高的低共识比赛。问题在于，它的稳定性不够，冷门场次赚到的分，又在其他地方丢了回去。如果放到投资语境里，它像一只Alpha不低但波动也大的基金。

DeepSeek、通义千问、智谱、商汤小浣熊，再加上MiniMax，构成了一个庞大的50%中间层。它们大多数时候跟随主流强弱判断，比分给得相对保守，2：0、2：1、1：2这类结果高频出现。它们能拿下共识赛场，但在韩国胜捷克、澳大利亚胜土耳其、荷兰平日本、卡塔尔平瑞士、比利时平埃及这些需要偏离主流判断的比赛里，存在感相对有限。

Kimi和讯飞星火都是24中11，略低于中位线。它们并不是乱猜型模型，多数预测仍然沿着强弱逻辑展开，但缺少关键场次加分。强队题能跟上，但冷门题和平局题抓得不够。在总分非常接近的榜单上，少一个韩国、澳大利亚、日本这样的判断，排名就会被拉开。

最特殊的是阶跃。

猜中了25%，比三选一随机猜测的理论期望要低一些。但阶跃又贡献了最矛盾的样本：9场平局里，它命中了2场方向，其中比利时1：1埃及，它预测1：1，精准命中比分；卡塔尔1：1瑞士，它也预测平局，只是比分给到了3：3。

这说明阶跃是一个高方差反共识模型。它敢说平，也敢站少数派。乌兹别克斯坦对哥伦比亚，其他11家都预测哥伦比亚胜，阶跃给出乌兹别克斯坦3：0；英格兰对克罗地亚，它预测克罗地亚胜；加纳对巴拿马，它预测巴拿马胜。这些判断最终都明显偏离结果。

这也正是这场AI猜球实验最像财经市场的地方。市场里也有共识，有反共识，有趋势，有均值回归。一直跟随共识，赚不到超额收益；一直反共识，又很容易系统性亏损。真正稀缺的能力，不是站队，而是识别什么时候共识有效，什么时候共识已经失效。

三

首轮另一个被数据放大的变量，是亚洲球队。

韩国2：1捷克，只有MiniMax命中韩国胜；卡塔尔1：1瑞士，只有阶跃命中平局；澳大利亚2：0土耳其，只有百度文心和MiniMax命中澳大利亚胜；荷兰2：2日本，只有中移九天命中平局；沙特1：1乌拉圭，12家AI全错；新西兰2：2伊朗，12家AI全错。

这6场亚洲球队参与且保持不败的比赛，12大AI合计72次预测，只命中5次，命中率6.9%。

这个数字说明，AI失准的不只是平局，也是“传统强弱叙事没有兑现”的比赛。欧洲、南美球队拥有更高的历史声量、更完整的数据覆盖、更强的舆论权重；亚洲球队即使在现实比赛中已经展现出更强的组织能力和韧性，也很容易在模型判断里被低估。

直到乌兹别克斯坦1：3不敌哥伦比亚，AI才重新回到熟悉的强弱秩序里，11家AI猜中哥伦比亚胜。

这件事并不只属于足球。大模型在开放世界里常常会遇到同样的问题：旧秩序在训练数据里占据高权重，但现实已经开始变化。模型擅长从过去总结规律，却不一定能意识到“这一次和过去不同”。

人类专家当然也会犯这种错。很多球评人同样会低估亚洲球队，同样会迷信传统强队。但人类经验丰富的地方在于，他有时能给出一种模糊但重要的判断：这支队今年不一样，这个教练改变了打法，这个中场组合比纸面实力更有竞争力。大模型可以看到大量历史材料，却未必能判断哪些历史材料在这一次已经不再适用。

这才是世界杯预测和AI行业真正相连的部分。无论是投资判断、供应链调度、库存预测还是风险控制，难点都不是找到历史平均值，而是识别变量结构何时发生变化。足球里的平局、冷门、弱队不败，只是这个问题的一个缩影。

在财经语境里，平局对应的不是“没有结果”，而是市场观望、供需僵持、价格横盘、风险尚未释放。一个只会在“涨”和“跌”、“赢”和“输”之间寻找答案的模型，可能会低估“僵持”本身就是一种重要结果。

所以，24场之后可以得出一个更细的结论：大模型已经能较好处理共识题，但距离真正理解复杂世界仍有距离。它们会识别强弱，却不总能判断强弱是否会兑现；它们会复现主流判断，却不总能识别主流判断什么时候已经过热；它们能给出答案，却还不擅长表达答案的边界。

这也是为什么“AI猜球”看起来像娱乐，实际却是一个很好的行业观察窗口。它把大模型从抽象指标里拉出来，放进一个所有人都能看懂的现实场景里。每一场比赛都即时验证，每一次失误都无法遮掩，每一次冷门都在测试模型对不确定性的承受能力。

四

如果只看预测准不准，似乎我们的讨论可以止步于此：AI总体接近普通强弱判断，平局几乎集体失灵，冷门识别能力有限。

但世界杯对AI行业的意义不止于此。它正在变成一个巨大的产品展厅。

千问用足球预测助手打C端用户心智，Kimi用多Agent报告展示复杂任务拆解能力，联想集团和咪咕用12模型擂台提供横向比较的平台，海外媒体用ChatGPT、Claude、Gemini测试投注场景。不同公司都在借世界杯回答同一个问题：大模型怎样从能聊走向能判断，从文本工具走向决策助手。

这也是联想集团和咪咕这场人机大战值得被放大的原因。它不是某一家模型自己搭建的主场，而是把多家模型放到同一套规则里。单个模型可以通过更好的数据接入、更复杂的Agent流程、更精细的提示工程来优化表现，但在这张榜单上，所有模型面对的是同一个问题：这场球，你押谁？

这种公共性很稀缺。AI行业已经有太多榜单、评测和技术指标，但普通用户很难感知它们的差别。世界杯提供了一个更朴素的评测方式：不用解释参数量，不用讨论上下文窗口，不用争论训练语料。你说墨西哥赢，墨西哥就必须真的赢；你说比利时2：0，最后1：1就是错；你说平局，只有终场比分能替你证明。

当然，24场比赛样本还不够大，也不能据此断言哪家模型真实能力更强。足球预测受偶然性影响太大，胜平负也只是最粗的结果维度。它不完美，却足够直观；不严谨，却足够真实；不是标准答案，却能照出模型面对现实噪声时的姿态。

接下来的比赛会更难。小组赛第二轮开始，积分压力会介入，谁更强和谁更需要赢不再是同一个问题。第三轮会出现轮换、算分、净胜球博弈和保守战术。到了淘汰赛，模型要面对的是哪队更怕输。

百度文心的低波动策略在首轮占了便宜，但当比赛进入更混沌的阶段，保守是否仍然有效，还需要继续验证。联想天禧AI能否从稳定第一梯队向榜首发起冲击，中移九天还能不能抓住平局，MiniMax能否把冷门嗅觉转化成稳定胜率，阶跃的高方差反共识会不会在某个冷门夜晚再次撞中大奖，也都还有悬念。

但首轮24场已经提供了一个足够有意思的切面：AI不是没有判断力，而是它的判断力有明显性格。有的模型相信秩序，有的模型跟随共识，有的模型偶尔能抓住冷门，有的模型把反共识推到了噪声边缘。

世界杯是足球的赛场，也成了AI理解现实世界的一面镜子。24场之后，我们看到的不只是比分榜，而是12个模型面对不确定性时的不同姿态。

而这也许比谁多猜中一场，更值得看。