新浪科技

毫末智行自动驾驶大模型DriveGPT探索端到端方案

环球网

关注

来源:环球网

——成为能够识别万物、具备世界知识的AI老司机

要:随着人工智能技术的快速发展,自动驾驶领域迎来了端到端技术的新浪潮。毫末智行作为自动驾驶AI技术的领军企业,通过其自动驾驶大模型DriveGPT,积极探索端到端自动驾驶的解决方案。本文将梳理当前端到端自动驾驶的趋势,并分析2024年毫末DriveGPT如何利用AI大模型技术,推动自动驾驶技术向更高级别的智能化和人性化发展。

关键词:自动驾驶,端到端技术,AI大模型,毫末智行,DriveGPT

案例正文:

自动驾驶是人工智能技术与汽车产业结合下,最具想象力也最具挑战性的一项复杂工程。自动驾驶技术,从出现到成熟,也经历了一个动态发展的过程。如今,人工智能大模型的爆发,为自动驾驶技术提供了最为核心的技术支撑,使得高阶自动驾驶乃至无人驾驶应用的成熟落地成为可能。

从2004年第一届DARPA自动驾驶挑战赛算起,自动驾驶正式形成“感知-决策-规划执行”模块化框架,并逐步引入计算机视觉、机器学习算法等技术来指导车辆的感知、决策和控制,并一直成为主流技术框架。当前,随着以Transformer为代表的AI大模型架构引入智能驾驶感知领域,以数据驱动为主要特征,以实现端到端自动驾驶为目标的3.0时代正式到来。

自动驾驶3.0时代的划分

AI大模型让端到端成为可能

自动驾驶技术走向成熟,需要解决两个问题:一个是从有人监督的、有条件的自动驾驶走向无人监督的、完全的自动驾驶,一个是从简单场景、封闭场景、低速场景走向复杂场景、开放场景和高速状态下的全场景。归结到最根本的一个问题就是,如何让一个自动驾驶系统真正能够像人类一样进行驾驶,完成比人类驾驶者更安全、更稳定的驾驶任务。

处于2.0时代的自动驾驶系统,主要以“AI小模型+人工规则”的方式来实现。AI小模型是基于特定问题来执行任务的,比如有专门识别红绿灯、车道线的小任务模型,但是驾驶场景会遇到种类繁多的感知任务,不可能用小模型的方式去穷尽极端场景;同样,车辆行驶过程当中遇到的各类任务也不可能完全用人工规则写完,遭遇复杂的博弈场景,系统就很容易“摆烂”或者“失效”。此外,自动驾驶系统还有许多额外的辅助,特别是高精地图+定位组合的方式。高精地图带来了“先验”视角,让车辆有了对环境信息的提前的掌握,但高精地图显然也限制了自动驾驶的运行范围,提高了运行成本,在鲜度不足或者覆盖范围之外的地方会带来额外的风险。

近年来,随着AI大模型从自然语言处理领域进入到机器视觉领域,Transformer开始被应用到图像识别、图像分割等任务,AI大模型开始进入自动驾驶技术的应用领域。

此前,Transformer+BEV方案一经推出,很快就成为国内智驾领域主流推崇的方案,很快取代传统自动驾驶感知采用2D直视图+CNN卷积神经网络的架构。Transformer+BEV的技术路线仅仅解决了感知模块的理解效果问题,车端认知模块仍然面临着从手工规则向AI模型化演进的问题。这就同样需要采用数据驱动的方式来训练认知大模型。

因此,AI大模型的训练方式也就被自然而然地引入到自动驾驶技术领域当中,并且根据数据驱动的方式打造自动驾驶大模型,成为通向端到端自动驾驶的必由之路。

自动驾驶3.0时代的技术框架会发生根本性变化。首先,自动驾驶会在云端实现感知大模型和认知大模型的能力突破,并将车端各类小模型逐步统一为感知模型和认知模型,同时将控制模块也 AI 模型化。随后,车端智驾系统的演进路线也是一方面会逐步全链路模型化,另一方面会逐步大模型化,即小模型逐渐统一到大模型内。然后,云端大模型也可以通过剪枝、蒸馏等方式逐步提升车端的感知能力。最后,在车端、云端都会是端到端的自动驾驶大模型。

当前,智驾领域都在对自动驾驶AI大模型以及端到端自动驾驶展开探索。首先端到端模型的训练一定是以大模型的方式训练的。用于训练的数据规模要足够多,场景覆盖足够广,才能使得端到端系统有着更强的“见多识广”的能力。其次,端到端自动驾驶既可以用单一模型来实现,当然也可以用多个模型来实现,其关键在于是否用到端到端训练。分任务系统是每个任务独立训练、独立优化、独立测评的,而端到端系统是把所有模块看成一个整体进行端到端训练、端到端测评。

毫末DriveGPT大模型的端到端探索

毫末智行,成立于2019年底,是一家自动驾驶AI技术公司。2023年4月,毫末智行率先提出了国内首个自动驾驶生成式大模型DriveGPT雪湖·海若,试图通过大模型训练出像人类一样具备识别万物、世界知识的老司机。

毫末智行的DriveGPT大模型是其在自动驾驶领域的一次重要创新。2024年4月,毫末DriveGPT模型通过引入大规模的驾驶数据和先进的强化学习技术,不断优化自动驾驶系统的认知决策能力。与传统的模块化自动驾驶技术框架相比,DriveGPT采用了端到端的训练方式,将感知、规划、决策和控制融合为一个统一的神经网络架构,有效避免了模块间误差的累积,提高了系统的效率和性能。

毫末DriveGPT2.0整体架构

DriveGPT大模型的关键在于其能够处理多模态数据,并构建起强大的4D空间感知能力。在此基础上,毫末进一步引入图文多模态大模型,实现对自然语言和视觉信息的整合,从而让自动驾驶系统具备了“识别万物”的能力。此外,DriveGPT还通过构建驾驶语言来描述驾驶环境和意图,结合导航信息和历史动作,借助大语言模型的海量知识辅助驾驶决策。

2024年,端到端自动驾驶成为当前自动驾驶领域最为热门的技术范式和解决方案。这一切都源自于AI大模型正在被逐步引入到自动驾驶系统的训练和车端的落地当中。

毫末智行CEO顾维灏表示,AI大模型是自动驾驶得以真正实现的唯一路径。端到端自动驾驶之所以能够实现,正是得益于AI大模型所取得的规模定律(scaling law)的作用。在自动驾驶3.0时代,大模型、大数据、大算力,所引发的规模定律也在让完全自动驾驶这一目标得以可能。规模定律如何在自动驾驶领域得以应用,现在还需要针对性地解决其面临的一些技术难题。

首先,自动驾驶的数据如何规模化。自动驾驶数据在十几年内,就从单张图片发展到激光雷达和周视相机组成的多模态时空数据,它的规模化不仅仅是技术问题,还要从产品形态和商业模式的维度联合构建。

其次,自动驾驶的模型如何规模化。世界模型的构建需要感知模型达到规模定律的发展趋势,也需要利用好当前的大语言模型的认知能力,还需要在端侧算力上应用好规模定律。

最后,自动驾驶的算力如何规模化。要有强大的调度和控制能力,将算力充分利用起来,保证训练过程的鲁棒性和训练成本的节省。在真正应用之前,还需要思考仿真验证如何规模化,只有通过静态和动态的数据生成技术把真实的物理世界重建起来,才能保证仿真验证的有效性。

端到端自动驾驶的实现,得益于AI大模型的规模定律。毫末智行通过技术创新,致力于让自动驾驶系统像人类老司机一样,洞察万物,理解复杂场景,并做出精准决策。

当前,人工智能正处在群体性技术变革的起点,正迈向多智能融合的新阶段,将成为第四次工业革命的标配,引发社会发展深远变革。随着大模型、端到端应用,对数据和供给要求降低,以及数据生成带来的仿真技术的进步,都会加快产品技术的迭代。

案例点评:

毫末智行的DriveGPT大模型在端到端自动驾驶领域的探索具有显著的优势和亮点。首先,DriveGPT通过整合大规模驾驶数据和先进的AI技术,实现了对复杂交通环境的精准感知和理解。其次,端到端的训练方式有效提升了系统的决策效率和性能,减少了模块间的错误累积。最后,毫末在技术创新上的不断追求,为自动驾驶的智能化和人性化发展提供了新的可能性,有望为人们的出行带来更加安全、舒适的体验。

2024环球案例征集编委会

加载中...