【技术】BEV+Transformer强化车辆感知能力,推进NOA升级
汽车族杂志
近年来,众多车企都在研发并完善自家的NOA(自动辅助导航驾驶)功能,旨在为用户提供更加便捷的体验。不过,NOA是新兴技术,尚不成熟,车辆的感知能力存在提升空间。BEV(鸟瞰图视角/上帝视角)+Transformer深度学习模型架构的出现强化了车辆感知能力,推进NOA升级。
撰文:毕偶
在BEV+Transformer被应用之前,NOA使用的是CNN(卷积神经网络)算法对2D图像和3D图像进行处理。车上搭载的传感器,即摄像头和雷达会收集2D图像和3D图像,基于每个传感器的位置,将感知数据形成放射图像。感知结果通过CNN进行大量计算后,统一升维至3D,建立3D状态下的车机行驶坐标系。这种技术存在多处缺陷,比如:难以预测2D画面的遮挡部分、缺乏时间序列信息,难以确认感知和预测的连续性、高度/深度存在误差等。这些问题都会对行驶安全造成影响。
为了解决上述问题,BEV+Transformer模型被提出并应用。BEV被称为鸟瞰图视角,顾名思义,它能够将视觉信息立体化,如同一只鸟儿在车辆正上方10-20米处俯瞰,周围的环境信息以自上而下的方式展示在坐标系中。而Transformer是一种深度学习模型架构,采用自注意力机制,有能力察觉到数据内在的关联,通过数据和任务驱动的方式自主确定应该关注的焦点。还能引入时间序列信息,在空间时序上更全面地建模。
相较于处理2D+3D图像的CNN算法,BEV+Transformer技术拥有全局视野,图像鲜有遮挡部分,预测更可靠、感知更稳定。数据处理更直接,信息损耗更小。因此,这种技术能够更好地处理一些复杂情况,在感知复杂道路、应对恶劣天气和动态交通方面有着更出色的表现。
目前,BEV+Transformer技术已经被应用于多家车企NOA中。包括但不限于特斯拉FSD、蔚来NOP、小鹏XNGP和理想AD Max等。
特斯拉FSD
蔚来NOP
小鹏XNGP
理想AD Max
虽然BEV+Transformer已经实现量产上车,但车辆感知能力仍然不算完美。在未来,行业将继续在这方面进行强化。Occupancy Network(占用网络)技术是研发方向。它有能力将雷达扫描的点云数据转化为体素网格,并判断体素属于何种物体。并且可以判断物体的朝向和位置,场景重建更加精细。泛化能力将进一步增强,在标注数据较少的情况下,实现高质量的物体检测和重建。车辆感知能力会进一步提升,继续推进NOA升级,让行驶更智能且便捷,使用户体验更上一层楼。