新浪财经

小鹏重磅新论文发布!智驾又要进化了

科技每日推送

关注

前几天,小鹏汽车在 arXiv 正式公开了他们在物理 AI 与世界模型领域的最新研究成果X-Foresight: A Joint Vision-Action Causal Forecasting Network via Predictive World Modeling

这无疑是全球计算机视觉顶会 CVPR 2026 开幕前夕的一项重量级成果,小鹏也是本届会议中唯一受邀进行主题演讲的中国车企这篇论文的公开,意味着继今年 3 月发布 X-World月发布 X-Cache 之后,小鹏智驾生态的最后一块核心拼图正式落地。

作为这套体系的灵魂X-Foresight 是一套基于预测式世界模型(Predictive World Modeling)的视觉-动作因果预测网络而它的推出,直指当前整个智驾行业的底层瓶颈。

目前,大部分自动驾驶系统(包括特斯拉FSD V12)和最前沿的 VLA 架构(Vision-Language-Action),都是端到端的,本质上偏向“条件反射”。

系统就像一个凭本能开车的赛车手,走的是“感知直接动作”的黑盒路线。因为缺乏对物理世界的常识,它们无法在脑海里提前模拟:“如果我这么开,3秒后会发生什么?”

怎么打破这个瓶颈?小鹏 X-Foresight在这里面加入了一个中间层感知预测未来状态评估动作后果选择最优动作

相较于传统 VLA 依赖语言作为中间表示,X-Foresight 选择了一条更底层、训练难度高、但更具颠覆性的通路——直接建模物理因果。就像给智驾系统安上了预言家的大脑,一边高频控车,一边实时脑补出高清全景未来画面。不管是行人突横穿、前车急刹,还是违规掉头等高危长尾场景,都能在提前预判中轻松拿捏。

(B) 在 t=2 s、t=4 s、t=6 s 时刻预测未来帧的闭环推理可视化结果

(C) X-Foresight 在多项基准测试中均优于基线方法

而这套物理模拟器之所以能够从纸面走向现实,全靠以下四个核心技术模块的跨越式创新:

架构:“分块预判”打破大模型的合法作弊

很多人觉得,既然 Sora 能把视频生成得那么逼真,那直接把这套逐帧预测下一帧画面的绝活搬到智能驾驶上不就行了?

然而,这样做会遇到一个致命预测退化陷阱由于自动驾驶视频的相邻两帧画面实在太相似了,如果让大模型去逐帧预测,它会迅速学会偷懒作弊直接把上一帧画面平移或者复制过去。这样损失函数虽然降下来了,但实际上退化成了毫无意义的像素外推,根本没学到真正的物理运动规律妥妥的“无效刷题”

同时,世界建模还面临着时序困境你想看清前车变道的一刹那,就得死盯着每一帧(高帧率稠密预测);但你想看懂前方过十字路口的长期因果,又得往后看好几秒。如果把这两件事混在一起强行死磕每一帧,车机算力瞬间就会被榨干。

所以,X-Foresight 的架构核心,改用了长时域分块自回归Chunk-wise Auto-Regressive策略:

  • 内密外疏长短通吃不再一帧一帧地生啃,而是把时间切成了一个个 1 秒钟的大块(Chunk在块的内部,密集采样,把前车变道、刹车灯亮这种瞬时动态抓得死死的;在块与块之间,直接跨越式地稀疏跳转,专门用来推演几秒后的长期因果。这样既不会让模型躺平抄作业,又用极低的算力成本兼顾了眼前的细节和远方的因果。

  • BSA 算力加速:为了防止这种长序列训练让系统崩掉,团队自己手写了一个半因果块稀疏注意力机制(BSA作为底层核,直接把传统的 FlashAttention-2 给换掉了。这一换,端到端训练的吞吐量直接暴涨了 1.59倍!用最经济的算力,完美搞定了这个时间两难的困境。

两个面板展示了分配给不同注意力头组的互补稀疏模式

策略:由易到难,无痛拓宽 21 秒远见视界

想让一个刚出生的大模型一口气看清 21 秒后的未来,算力不仅吃不消,模型也根本学不会,极易导致训练崩溃。

为了破这个局,小鹏引入了渐进式课程学习配合扩展视界策略Curriculum Learning for Extended ForesightCLEF,像教孩子读书一样,讲究循序渐进:

  • 第一步(普及班):先让模型学会预测挨在一起的短时间块(以 1 秒为步长进行短期脑补)。

  • 第二步(进阶班):等模型底子扎实了,逐渐把块之间的跳转间距拉大到 3 秒。

通过这种由易到难喂养方式,系统在没有增加一丁点额外算力负担的前提下,硬生生把前瞻视野拉长到了 21 秒的超长地平线。这直接让 AI 拥有了老司机走一步、看十步的顶级远见,即使遇到突发状况,控车策略也稳如老狗,不掉链子。

数据:拒绝流水账,强迫大模型死磕错题本

海量的上路行车视频看似是一大笔财富,但其实大部分时间车辆都在平稳地匀速直线行驶。这种毫无波澜的平稳巡航废话画面如果均匀采样、高密度地喂给大模型,只会白白浪费算力和监督信号,还会稀释核心知识的学习效果,让模型变得迟钝。

为了不让数据注水,小鹏创新应用了时序重要性采样(Temporal Importance Sampling,简称 TIS。这套策略不看别的,专挑难题突发状况下手:

  • 用公式给路况精准打分:系统不是盲目地乱选视频,而是通过一套基于车辆横向和纵向加速度的算法,实时给前瞻、当下、后滞三个时间窗口的动态变动进行定量评估。

  • 专攻安全关键:只要遇到变道、急刹、强插、猛打方向等安全关键块,该片段的分数就会飙升。系统会自动把宝贵的算力倾斜给这些高价值片段。这相当于强迫大模型抛弃无意义的流水账,全神贯注地死磕硬核错题本,大大提升了应对危机时的决策长进。

渲染:脑眼分离,严防死守防作弊天条

为了把大脑想的因果道理变成大家都能看懂的高清画面,小鹏在设计哲学上提出了一个非常清醒的观点:学道理不需要高清。

如果隐空间里塞满了过多的像素细节,反而会稀释掉模型对世界核心结构规律的理解。就像我们人类学开车,脑子里想的是车流怎么走、路怎么弯,而不需要去强行记住路边每棵树的树叶是怎么飘的。

因此,X-Foresight 依托两大核心模块,实现脑眼分离

  • 大型驾驶模型(Large Drive Model)充当军师作为核心大脑,在隐空间进行抽象的物理推理和控车决策。它输出三种东西:控制动作(高频控车)、BEV 鸟瞰图(空间结构理解)和每路摄像头的隐向量 Token

  • 视觉渲染器(Vision Renderer)充当画师基于 X-World 优化的扩散式多视角渲染器与 3D 因果 VAE(变分自编码器),它不参与决策,专门负责把 LDM 军师脑海里那些抽象的 Token,还原成几何一致、真假难辨的 路环视摄像头高清全景闭环画面。秒预测视界 FID 值低至 1.51,即便到了 秒长时预测仍能保持极低漂移!

而这里,死守着一条绝妙的防作弊天条在最终的对齐阶段,渲染器是绝对不输入车辆控制动作(Action Token)的!

为什么要故意瞒着它?因为如果让渲染器同时看到动作(比如踩油门或打方向),扩散模型就会偷偷走捷径直接根据动作去硬套、瞎编未来的画面,从而与 LDM 大脑内部真实的物理推理脱节。

现在小鹏逼着渲染器只能通过 LDM 的 Camera Token 这一根独木桥来传导信息,反而死死确保了车机画出来的未来画面,与智驾大脑的内部真实想象绝对对齐。

战绩:13.8 万亿 Token 喂出的工业级家底与实测震撼

一套强大的世界模型网络,必须有庞大的产业级数据和生态来喂养。

小鹏这次直接掏出了令人惊叹的工业级家底:基于小鹏 28 万小时自有驾驶数据训练,涵盖 3400 万条视频片段,Token 规模达到了恐怖的 13.8 万亿! 采用 目环视摄像头,实现 360 度无死角覆盖,广泛横跨城市道路(86.8%)与高速(13.2%),完整保留了环岛、匝道、收费站、弱势道路使用者交互等长尾安全场景。

在这层饱和式训练下,完全体的 X-Foresight 在规划安全与生成保真度上全面领先传统基线,直接用一连串硬核的数据砸碎了传统 VLA 的黑盒瓶颈:

  • 安全合规指标暴涨:核心碰撞率相对暴跌了 16.2%!安全(Safety)指标提升 9.1%,合规(Compliance)指标提升 8.2%

  • 轨迹精准控线:衡量 AI 走线准不准的轨迹误差上,横向和纵向的 ADE(平均位移误差)分别提升 6.4% 和 3.6%;而长远预判的 FDE(终点位移误差)更是分别大幅优化了 8.8% 和 4.1%

  • 六边形战士:依据小鹏自家的 CCES(合规性、舒适性、效率、安全性)测评指标体系,X-Foresight 在四个指标上的综合表现提升了 4.6%

在实际场景中,对比传统两眼一抹黑、动不动就车道偏离、盲目制动点刹的旧模型,X-Foresight 现场演示了什么叫拥有物理世界知识的顶级老司机

  • 多出口大环岛场景:传统的反应式模型由于视界太短,一进环岛看到近处的出口,很容易按肌肉记忆跑偏、提前切出。而 X-Foresight 展现出强大的前瞻性决策能力,精准锚定导航目标出口,一路上稳压阵脚,绝不受近处出口的干扰。

多出口环岛下,X-Foresight根据实际情况追踪目标出口

  • 夜间路口信号灯切换预判:面对前方红灯,普通基线模型往往因为短视而早早一脚把刹车踩死,甚至把预测轨迹掐断。但 X-Foresight 通过脑补未来,精准预判了信号灯的切换趋势 —— 它算准了车辆滑行到停止线前红灯就会变绿,从而在内部画出了一条无需减速、滑行通过路口的优雅轨迹。

夜间十字路口下,X-Foresight预测信号灯转换

全栈协同,和特斯拉国际相遇的那天越来越近了

随着 X-Foresight 的正式亮相,小鹏通往高阶自动驾驶的超级三件套终于彻底完成了拼图,构筑起了闭环的自动驾驶生态:

  • X-World 负责搞定数据用超逼真的多视角仿真生成,给 AI 创造出无穷无尽、包罗万象的模拟考卷

  • X-Cache 负责搞定速度: 把端到端的实时性和吞吐率拉满,确保车机大脑在应对海量高频信号时绝不卡顿、原地起飞;

  • X-Foresight 负责搞定智能注入灵魂级的物理因果推理,让车子真正学会像人类老司机一样去预判未来

这三张王牌凑齐,协同构建起知识学习-场景仿真-推理加速的全栈体系,才算真正支撑起 L4 级别智驾所必需的系统级安全冗余。全面质变从来都不是靠某一个算法的单点爆种,而是靠这种环环相扣的系统级全栈工程能力。

从数据驱动、模型驱动,再到如今 X-Foresight 开启的世界知识驱动World-knowledge-driven)新范式,自动驾驶的下半场变天了。未来的物理世界模拟器,小鹏已经率先开上了主干道。

回想起 2020 年,马斯克指责小鹏智驾,何小鹏在社交媒体上硬气回应:

如今的小鹏,已被很多人认为时国内能与特斯拉正面硬刚的最强竞争者。

而何小鹏当年说的“国际相遇”的那一天,已经越来越近了。

参考阅读:

X-Foresight 官方项目主页:https://x-foresight-1.github.io/en/

加载中...