新浪科技

Kimi最看好的德国队,倒在了世界杯第一场大考里

新浪科技

关注

点球大战结束的那一刻,德国队站在球场中央,像一支被提前写进剧本、却突然被删掉的主角。

几小时前,甚至几天前,它还活在另一套叙事里。那套叙事更理性,更漂亮,也更像今天 AI 公司喜欢讲的故事:数据、模型、Agent、概率校准、市场偏差。Kimi 在世界杯开赛前把德国队列为一个“可能被低估”的样本。它说,模型给德国的校准后夺冠概率约为 11.3%,而部分市场的隐含概率只有 7.4% 左右。

这不是一句鲁莽的“德国必夺冠”。恰恰相反,它被写得相当克制:不是确定性判断,而是概率偏差;不是预言,而是公开记录;不是拍脑袋,而是由 300 个子 Agent 从战术、伤病、赛程、赔率、舆情和天气等维度并行分析得出的结果。

但世界杯从不负责保护一个漂亮的技术叙事。

德国和巴拉圭踢成 1:1。随后,德国在点球大战中出局,止步 32 强。那支被 Kimi 视为可能被低估的球队,没有等到半决赛、决赛,甚至没有走过第一轮淘汰赛。

更让这场比赛变得微妙的是,Kimi 并不孤独。

在联想集团与咪咕共同发起的“世界杯预测人机大战”里,德国 VS 巴拉圭这一场,12 大 AI 全部押德国胜。

DeepSeek 预测 3:0,通义千问预测 3:0,中移九天预测 2:0,百度文心预测 2:0,腾讯混元预测 3:1,Kimi 预测 3:1。智谱、MiniMax、阶跃、讯飞星火、商汤小浣熊,也都站在德国这一边。

这张预测表在赛前看起来像共识。赛后再看,它像一张集体误判的合影。

这正是这场比赛的新闻价值所在。德国出局不是 Kimi 一家 AI 的尴尬,而是一个更大问题的开端:当一批中国最受关注的大模型同时进入世界杯预测场,它们会不会在某些关键时刻犯同一种错误?

德国太容易让模型产生安全感了。

它有历史,有球星,有体系,有纳格尔斯曼,有穆西亚拉和维尔茨,有足够多能够被写进分析报告的理由。对一个擅长综合公开信息的大模型来说,德国几乎是一道顺手题。它的强队标签太醒目,纸面优势太完整,解释起来也太顺畅。

巴拉圭则相反。它的晋级路径不体面、不华丽,也不适合写成模型报告里的主线。它不需要在场面上彻底压倒德国,只需要把比赛变慢,把空间压缩,把德国拖进焦躁,把一场强弱分明的比赛拖进点球点前。

足球的残酷就在这里:模型可以更接近“谁更强”,但比赛决定的是“谁活下来”。

The Guardian 的战报提到,德国一度长期掌握控球优势,上半场控球率高达 79%。这组数字很像 AI 预测里的德国:占优、合理、符合预期。但比分牌没有奖励控球率。巴拉圭守住了比赛,也守住了它最想要的那条窄路。

这条窄路,恰恰是 AI 最容易低估的东西。

Kimi 在原文里有一句话,现在读起来有些刺眼,也有些珍贵。它说,“我们的预测很可能是错的。”当时,这句话像是一种风险提示;德国出局以后,它变成了对 Kimi 自己的追问。

既然预测很可能是错的,那么错了以后怎么办?

这才是 Kimi 此刻真正的考题。

如果只是赛前给出一个看起来复杂的判断,赛后用“足球具有不确定性”一句话带过,那这次世界杯预测仍然只是一次高级营销。它比普通竞猜更懂技术语言,但并没有更接近可信 AI。

但如果 Kimi 能把德国这场讲清楚,它就会从“翻车”里拿回主动权。

它需要回答:德国的强队先验是不是被放大了?市场赔率和公开舆论是不是让多个 Agent 读到了同一套共识?模型有没有把“德国常规时间取胜”和“德国最终晋级”混为一谈?巴拉圭拖入点球的路径,赛前是否被低估?如果 300 个子 Agent 都看到了风险,为什么最终输出的答案仍然如此笃定?

这不是吹毛求疵。一个 AI 系统进入现实世界,最重要的能力从来不只是回答问题,而是处理错误。

金融模型会回撤,新闻机构会更正,球队会复盘比赛录像。AI 公司如果要让自己的模型进入更复杂的公共判断,也必须学会把错误拆开,而不是把错误藏进“不确定性”这个大词里。

德国出局给 Kimi 提供了一次很少见的机会。它终于不必在演示环境里证明自己,而是在一个全世界都能看懂的场景里接受检验。比分公开,预测公开,错误也公开。

这比任何发布会都更真实。

过去一年,AI 公司习惯用更大的参数、更长的上下文、更强的 Agent 能力来讲进步。但世界杯提醒人们,现实世界不是一份可以被完整读完的文档。它会突然下雨,会有人受伤,会有门将扑出点球,会有一支不被看好的球队把比赛拖到它最舒服的地方。

AI 不是不能错。真正的问题是,它能不能比人类更诚实地承认自己为什么错。

德国队已经回家。Kimi 的世界杯预测还没有结束。

相反,它刚刚进入最重要的部分。赛前预测是上半场,赛后复盘才是下半场。对于 Kimi 来说,德国出局不是一场简单的失败,而是一道公开题:当 AI 不再只展示成功案例,它是否还能让人相信自己?

如果答案是能,那么这场所谓的“翻车”不会只是笑话。

它会成为 AI 走向现实世界时,一次必要而诚实的摔倒。

加载中...