小鹏重磅新论文发布！智驾又要进化了

科技每日推送

原创作者 06.0421:43

关注

前几天，小鹏汽车在 arXiv 上正式公开了他们在物理 AI 与世界模型领域的最新研究成果：X-Foresight: A Joint Vision-Action Causal Forecasting Network via Predictive World Modeling。

这无疑是全球计算机视觉顶会 CVPR 2026 开幕前夕的一项重量级成果，而小鹏也是本届会议中唯一受邀进行主题演讲的中国车企。这篇论文的公开，意味着继今年 3 月发布 X-World、4 月发布 X-Cache 之后，小鹏智驾生态的最后一块核心拼图正式落地。

作为这套体系的灵魂X-Foresight 是一套基于预测式世界模型（Predictive World Modeling）的视觉-动作因果预测网络。而它的推出，直指当前整个智驾行业的底层瓶颈。

目前，大部分自动驾驶系统（包括特斯拉FSD V12）和最前沿的 VLA 架构（Vision-Language-Action），都是端到端的，本质上偏向“条件反射”。

系统就像一个凭本能开车的赛车手，走的是“感知→直接动作”的黑盒路线。因为缺乏对物理世界的常识，它们无法在脑海里提前模拟：“如果我这么开，3秒后会发生什么？”

怎么打破这个瓶颈？小鹏的 X-Foresight在这里面加入了一个中间层：“感知→预测未来状态→评估动作后果→选择最优动作”。

相较于传统 VLA 依赖语言作为中间表示，X-Foresight 选择了一条更底层、训练难度更高、但更具颠覆性的通路——直接建模物理因果。就像给智驾系统安上了“预言家的大脑”，一边高频控车，一边实时“脑补”出高清全景未来画面。不管是行人突横穿、前车急刹，还是违规掉头等高危长尾场景，都能在提前预判中轻松拿捏。

(B) 在 t=2 s、t=4 s、t=6 s 时刻预测未来帧的闭环推理可视化结果

而这套物理模拟器之所以能够从纸面走向现实，全靠以下四个核心技术模块的跨越式创新：

架构：“分块预判”打破大模型的合法作弊

很多人觉得，既然 Sora 能把视频生成得那么逼真，那直接把这套“逐帧预测下一帧画面”的绝活搬到智能驾驶上不就行了？

然而，这样做会遇到一个致命的“预测退化陷阱”。由于自动驾驶视频的相邻两帧画面实在太相似了，如果让大模型去“逐帧预测”，它会迅速学会偷懒作弊，直接把上一帧画面平移或者复制过去。这样损失函数虽然降下来了，但实际上退化成了毫无意义的像素外推，根本没学到真正的物理运动规律，妥妥的“无效刷题”。

同时，世界建模还面临着“时序困境”：你想看清前车变道的一刹那，就得死盯着每一帧（高帧率稠密预测）；但你想看懂前方过十字路口的长期因果，又得往后看好几秒。如果把这两件事混在一起强行死磕每一帧，车机算力瞬间就会被榨干。

所以，X-Foresight 的架构核心，改用了“长时域分块自回归”（Chunk-wise Auto-Regressive）策略：

内密外疏，长短通吃：它不再一帧一帧地生啃，而是把时间切成了一个个 1 秒钟的“大块（Chunk）”。在块的内部，密集采样，把前车变道、刹车灯亮这种“瞬时动态”抓得死死的；在块与块之间，直接跨越式地稀疏跳转，专门用来推演几秒后的“长期因果”。这样既不会让模型躺平抄作业，又用极低的算力成本兼顾了眼前的细节和远方的因果。

BSA 算力加速：为了防止这种长序列训练让系统崩掉，团队自己手写了一个半因果块稀疏注意力机制（BSA）作为底层核，直接把传统的 FlashAttention-2 给换掉了。这一换，端到端训练的吞吐量直接暴涨了 1.59倍！用最经济的算力，完美搞定了这个时间两难的困境。

两个面板展示了分配给不同注意力头组的互补稀疏模式

策略：由易到难，无痛拓宽 21 秒远见视界

想让一个刚出生的大模型一口气看清 21 秒后的未来，算力不仅吃不消，模型也根本学不会，极易导致训练崩溃。

为了破这个局，小鹏引入了渐进式课程学习配合扩展视界策略（Curriculum Learning for Extended Foresight，CLEF），像教孩子读书一样，讲究循序渐进：

第一步（普及班）：先让模型学会预测挨在一起的短时间块（以 1 秒为步长进行短期脑补）。
第二步（进阶班）：等模型底子扎实了，逐渐把块之间的跳转间距拉大到 3 秒。

通过这种由易到难的“喂养”方式，系统在没有增加一丁点额外算力负担的前提下，硬生生把前瞻视野拉长到了 21 秒的超长地平线。这直接让 AI 拥有了老司机“走一步、看十步”的顶级远见，即使遇到突发状况，控车策略也稳如老狗，不掉链子。

数据：拒绝流水账，强迫大模型死磕“错题本”

海量的上路行车视频看似是一大笔财富，但其实大部分时间车辆都在平稳地匀速直线行驶。这种毫无波澜的“平稳巡航废话画面”如果均匀采样、高密度地喂给大模型，只会白白浪费算力和监督信号，还会稀释核心知识的学习效果，让模型变得迟钝。

为了不让数据注水，小鹏创新应用了时序重要性采样（Temporal Importance Sampling，简称 TIS）。这套策略不看别的，专挑“难题”和“突发状况”下手：

用公式给路况精准打分：系统不是盲目地乱选视频，而是通过一套基于车辆横向和纵向加速度的算法，实时给前瞻、当下、后滞三个时间窗口的动态变动进行定量评估。

专攻安全关键：只要遇到变道、急刹、强插、猛打方向等安全关键块，该片段的分数就会飙升。系统会自动把宝贵的算力倾斜给这些高价值片段。这相当于强迫大模型抛弃无意义的流水账，全神贯注地死磕“硬核错题本”，大大提升了应对危机时的决策长进。

渲染：脑眼分离，严防死守的“防作弊天条”

为了把大脑想的“因果道理”变成大家都能看懂的高清画面，小鹏在设计哲学上提出了一个非常清醒的观点：学道理不需要高清。

如果隐空间里塞满了过多的像素细节，反而会稀释掉模型对世界核心结构规律的理解。就像我们人类学开车，脑子里想的是车流怎么走、路怎么弯，而不需要去强行记住路边每棵树的树叶是怎么飘的。

因此，X-Foresight 依托两大核心模块，实现了“脑眼分离”：

大型驾驶模型（Large Drive Model）充当“军师”：作为核心大脑，在隐空间进行抽象的物理推理和控车决策。它输出三种东西：控制动作（高频控车）、BEV 鸟瞰图（空间结构理解）和每路摄像头的隐向量 Token。

视觉渲染器（Vision Renderer）充当“画师”：基于 X-World 优化的扩散式多视角渲染器与 3D 因果 VAE（变分自编码器），它不参与决策，专门负责把 LDM 军师脑海里那些抽象的 Token，还原成几何一致、真假难辨的 7 路环视摄像头高清全景闭环画面。1 秒预测视界 FID 值低至 1.51，即便到了 6 秒长时预测仍能保持极低漂移！

而这里，死守着一条绝妙的“防作弊天条”：在最终的对齐阶段，渲染器是绝对不输入车辆控制动作（Action Token）的！

为什么要故意瞒着它？因为如果让渲染器同时看到动作（比如踩油门或打方向），扩散模型就会偷偷走捷径，直接根据动作去硬套、瞎编未来的画面，从而与 LDM 大脑内部真实的物理推理脱节。

现在，小鹏逼着渲染器只能通过 LDM 的 Camera Token 这一根独木桥来传导信息，反而死死确保了车机画出来的未来画面，与智驾大脑的内部真实想象绝对对齐。

战绩：13.8 万亿 Token 喂出的工业级家底与实测震撼

一套强大的世界模型网络，必须有庞大的产业级数据和生态来喂养。

小鹏这次直接掏出了令人惊叹的工业级家底：基于小鹏 28 万小时自有驾驶数据训练，涵盖 3400 万条视频片段，Token 规模达到了恐怖的 13.8 万亿！采用 7 目环视摄像头，实现 360 度无死角覆盖，广泛横跨城市道路（86.8%）与高速（13.2%），完整保留了环岛、匝道、收费站、弱势道路使用者交互等长尾安全场景。

在这层饱和式训练下，完全体的 X-Foresight 在规划安全与生成保真度上全面领先传统基线，直接用一连串硬核的数据砸碎了传统 VLA 的黑盒瓶颈：

安全合规指标暴涨：核心碰撞率相对暴跌了 16.2%！安全（Safety）指标提升 9.1%，合规（Compliance）指标提升 8.2%。
轨迹精准控线：衡量 AI 走线准不准的轨迹误差上，横向和纵向的 ADE（平均位移误差）分别提升 6.4% 和 3.6%；而长远预判的 FDE（终点位移误差）更是分别大幅优化了 8.8% 和 4.1%。
六边形战士：依据小鹏自家的 CCES（合规性、舒适性、效率、安全性）测评指标体系，X-Foresight 在四个指标上的综合表现提升了 4.6%。