新浪科技

高德机器人成果首秀,拿下10个SOTA

智能车参考

关注

一凡 发自 副驾寺

智能车参考 | 公众号 AI4Auto

高德,你真的变了。

大家都用过高德吧,尤其是在开车的时候,它的各种个性语音包、车道级导航和前车急刹预警等功能,都非常方便。看起来不就是个普通的导航App?

不是,真不是。

因为就在最近,高德一口气发布了两个机器人VLA成果,合计拿下10个SOTA(最佳表现),直接给我整不会了。

这到底什么情况???

高德VLA两连发

高德发布的两个VLA模型分工不同,一个是负责机器人导航任务的ABot-NO,另一个是专注机器人操控的ABot-MO。咱们就先从高德的看家本领“导航”开始说起。

高德认为,过去具身智能领域的导航成果都比较“碎片化”,喜欢针对不同任务设计不同架构,比如说导航到某个点是一个架构,指定物体目标导航过去又是另一个架构。

为了解决该问题,高德推出ABot-NO,首次用一个统一架构同时解决5类任务:

  • 点目标导航 (Point-Goal): 移动到精确的坐标点

  • 物体目标导航 (Object-Goal): 寻找并移动到特定类别的物体,比如“找沙发”

  • 指令跟随导航 (Instruction-Following): 执行长序列的自然语言路径指令

  • POI目标导航 (POI-Goal): 连接室外与室内,识别并到达特定的兴趣点(POI,Point of Interest)入口

  • 行人跟随导航 (Person-Following): 实时跟踪动态人类目标

具体怎么做到的?高德采用“大脑-动作”分层架构,将高层认知和底层控制解耦

其中高层认知的底座模型是Qwen3-4B,负责处理统一编码后的文本、视觉和历史帧数据。处理完毕后,上层大脑会向底层动作专家输出高层语义理解和包含物理环境信息的条件上下文。

然后,动作专家再采用流匹配(Flow Matching)生成模型,预测多模态轨迹分布,输出未来5个导航点的序列,每个导航点包含一对2D平面坐标和航向角度。

通过这种方式,ABot-NO在5类任务的7个基准测试中实现了SOTA,并且走出实验室,在室内外场景中完成了拿外卖、找人和跨楼层导航等长序列任务。

解决完了“去哪儿”的问题,再来看高德是怎么解决“干活”的。

高德先将OXE, AgiBot-Beta, RoboCoin, RoboMind, Galaxea 等六个主流开源数据集整合,然后进行标准化清洗。这里主要有两个策略,一个是统一动作空间,将所有动作统一转换为末端执行器坐标系下的增量动作,并使用旋转向量表示方向,提高预测稳定性。

另一个是“补零”,将单臂数据视为双臂数据的一部分,缺少的另一只机械臂记为0,统一单臂和双臂机器人的训练。

最终高德得到了包含600万条轨迹,时长超9500个小时的数据集,用于训练ABot-MO。

ABot-MO的架构和NO类似,也是将感知层VLM和决策层动作专家分层。先说感知VLM,它基于Qwen3-VL打造,这也是很多辅助驾驶玩家喜欢用的基模。VLM在感知层负责处理多视角图像和语言指令,提取包含语义的特征。

不过VLM有一个问题,就是3D空间感知不太行,难以识别物体的大小和距离。所以高德外挂了一个增强模块,由两部分组成

一个VGGT(Visual Geometry Grounded Transformer视觉几何嵌入Transformer),用于从单张图像中提取3D结构特征。还有一个Qwen-Image-Edit,用来生成新视角图像,隐式获取3D布局。

在增强模块的辅助下,VLM将获取的场景信息处理为包含视觉和文本的多模态特征,输出传递给底层动作专家。

动作专家采用DiT作为动作生成器,核心机制是动作流形学习(Action Manifold Learning, AML),这是对传统方式的创新。

传统扩散策略通常预测噪声或速度,高德认为这种高维且无结构的预测目标效率很低,因为有效的机器人动作并非随机分布。因此高德基于“动作流形假设”,认为合理的动作位于低维流形上,将动作专家设计为直接预测纯净的动作分块, 使用流匹配(Flow Matching)算法。模型接收VLM传递的特征、当前机器人状态和噪声动作,输出去噪后的动作序列。

实验结果显示,ABot-MO在Libero, Libero-Plus, RoboCasa等基准测试中,实现了平均任务成功率SOTA,超过pi0和UniVLA。

高德两个VLA拿下了10个SOTA,还挺让人意外的,让我忍不住顺藤摸瓜,细扒了下高德的相关布局。

高德的具身智能布局

实际上,高德去年就开始为进军具身智能储备人才了。2025年11月,招聘平台上显示,高德正在招聘多个具身智能岗位,包括具身智能业务负责人、具身算法运控工程师、具身硬件算法专家、具身算法工程师和具身智能电子系统专家等,有些岗位目前已经关闭了,比如机器人控制专家,也有的岗位仍在招人,比如电子系统专家。

从招聘信息来看,高德押注了软硬一体的技术路线。

启动招聘2个月后,高德开始对应调整组织架构。今年1月,据新浪科技报道,高德已成立具身业务部。有知情人士向新浪科技表示,业务部对机器人和机器狗都很感兴趣。

高德此时入局具身智能并不意外。一方面从行业来看,具身智能持续火爆,吸金无数。量子位智库发布的《2025年度具身智能创业投融资全景报告》显示,2025年具身智能赛道吸金554亿元,相比2024年翻了近4倍。

资本盛宴吸引无数玩家,尤其是在智能车圈,“车企一定会造机器人”逐渐形成共识,自动驾驶玩家也在摩拳擦掌。

另一方面从高德自身来说,这也并非其近期首次杀入新的赛道。过去一年,高德开展了一系列变革,尤其是在2025年下半年,先后开启Agent转型、启动扫街榜“到店”、以世界模型打造“飞行街景”……节奏可以说是紧锣密鼓,早已不能再以单纯的导航玩家视之。

过去,高德将现实映射为数字,辅助智能车感知物理世界,在智能车时代已经占据了独特的生态位。

现在,智能汽车的分支具身智能热辣滚烫,这个智能车时代的最强辅助,如今亲自下场。行业迎来一位最强基建玩家,物理AI多了一位实力派弄潮儿。

加载中...