北大联手中科院:给机器人装上"空间记忆",让它不再靠蒙猜方向
(来源:科技行者)
这项由北京大学计算机学院、中国科学院自动化研究所以及AI2 Robotics联合完成的研究,以预印本形式发布于2026年6月,论文编号为arXiv:2606.17480,题为《GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning》。
一个机器人要想完成"帮我把红色杯子拿过来"这样一个对人类而言轻而易举的任务,背后需要解决的问题其实相当复杂。它得先"看懂"眼前的场景,搞清楚红色杯子在哪儿、长什么形状、从哪个角度下手才能抓稳,还要回忆起上一次做类似任务时犯的错误,以免重蹈覆辙。研究团队把这个挑战提炼成了两个核心难题,并分别给出了新颖的解决方案,最终形成了一套名为GeneralVLA-2的机器人规划系统。
一、机器人为什么总是"看走眼"?
要理解这项研究的出发点,可以从一个生活场景切入。假设你被蒙住双眼,只允许用一根手指触碰一个陌生物体的某一面,然后要求你描述它的完整形状。你大概率会犯错——因为信息太少,你只能靠猜测填补那些没摸到的部分。
现有的机器人视觉系统面临的处境与此类似。当机器人只从单张照片来理解一个物体的三维形状时,它必须对物体的背面、侧面、底部进行"脑补",而这种脑补往往会产生错误,导致抓取角度偏差、碰撞判断失误等连锁问题。研究人员把这种现象称为"单目位姿模糊性"和"幻觉背面结构"——听起来像是人类的过度想象,但在机器人身上却会造成实实在在的操作失败。
研究团队的前作GeneralVLA已经在这条路上走了一段:它使用了名为SAM的图像分割工具来识别物体区域,再通过深度相机将二维图像转换成三维坐标,让规划模块能够推理空间位置。但单张图像的局限性始终是个绊脚石。GeneralVLA-2的思路是,当机器人能够从多个角度同时观察同一个物体时,就不需要再靠猜测填补空白了——多个视角的信息可以相互印证,从而构建出更可靠的三维模型。
二、从多个角度"认识"一个物体:GeoFuse-MV3D的工作原理
研究团队设计的这套多视角重建方案叫做GeoFuse-MV3D,它建立在一个叫MV-SAM3D的已有框架之上,但做了一系列关键改进。用一个直观的类比来理解:如果MV-SAM3D是让多位同学分别从不同角度素描一个苹果,然后拼合成立体模型,那GeoFuse-MV3D则是在拼合之前,先用一把"几何标尺"来检验每幅素描的可靠程度,再用"蒙版验证"来确认每幅图里画的确实是同一个苹果,最后只融合形状信息,不触碰颜色和光泽,以免把原本准确的外观搞乱。
具体来说,系统同时输入五个角度的彩色图像、每张图对应的物体蒙版(也就是标出"物体在哪里"的遮罩)以及相机的位置和朝向信息。在这些输入的基础上,GeoFuse-MV3D引入了两条并行的几何修正路径。
第一条路径称为"几何先验主提供者",它引入了一个外部的几何估计工具(研究中使用的是VGGT,一种能从图像中快速提取三维几何信息的模型),但并不直接信任它的输出,而是把它当作一个参考意见。参考意见需要经过"蒙版一致性验证":系统把三维点云投影回每张输入图像,检查它落在物体蒙版范围内的比例。如果某个三维点在多数视角下都落在蒙版外,说明它可能是错误估计出来的"幻影"点。
面对这些可疑点,GeoFuse-MV3D不会简单粗暴地删除它们——删除可能造成物体缺失、形状凹陷等更严重的问题。相反,它采用了一种"软收缩"策略:让可疑点向物体中心方向轻轻靠拢一点点,力度取决于可信度的高低,而且设有最大收缩比例的上限,确保不会过度变形。这就像雕塑家修正一个稍微多余的凸起时,不是切掉它,而是轻轻往里推一推。
第二条路径称为"无先验轴补偿",它完全不依赖外部几何工具,只使用输入图像的蒙版、相机位置和已有的初始三维模型。它沿物体的三个坐标轴方向分别做微小的缩放和平移,让三维模型在各个输入视角的投影结果与蒙版更加吻合。由于它只动形状不动外观,对初始模型的干扰极小,和第一条路径形成了很好的互补。
两条路径分别生成修正后的三维点位置后,系统进行最终融合。融合规则非常保守:只混合几何坐标(即点的空间位置),完全保留原始的颜色、透明度、旋转、缩放以及球谐函数外观属性。混合权重还会根据两条路径各自的蒙版支持度动态调整,支持度越高的来源,在最终结果中的权重越大。
这套流程的整体哲学是"保守优先"——宁可少改动,也不要因为激进修正引入新的错误,毕竟机器人规划对形状误差非常敏感,一点点偏差就可能导致抓取失败或碰撞。
三、实验结果:形状重建的四项指标全面提升
研究团队在一个名为GSO-30的标准测试集上验证了GeoFuse-MV3D的效果。这个测试集来自谷歌扫描物体数据集,包含30个真实家居物品的高精度三维模型,评估协议与MV-SAM3D完全一致:输入相同的五个视角,评估其余视角下的渲染质量。
衡量指标共有四个,可以用拍照的比喻来理解。倒角距离(CD)衡量重建出的三维形状与真实形状之间的"点云距离",数值越小说明形状越准确;峰值信噪比(PSNR)衡量渲染图像与真实照片的亮度差异,数值越高越好;结构相似性(SSIM)衡量图像在结构、亮度、对比度上的综合相似程度,越接近1越好;感知图像质量(LPIPS)模拟人眼对图像质量的感受,数值越小说明看起来越真实。
对比基准方法MV-SAM3D,GeoFuse-MV3D在这四项指标上全部取得了进步:CD下降了2.20%,LPIPS下降了2.02%,PSNR上升了2.36%,SSIM上升了1.03%。绝对数值方面,CD从45.8876降至44.8770,PSNR从13.2421升至13.5547,SSIM从0.8051升至0.8134,LPIPS从0.2795降至0.2739。
研究团队还做了拆解实验,分别测试"仅用第一条路径"、"第一条路径加软视觉壳"、"仅用第二条路径"、"两条路径融合"这四种配置的效果。结果显示,第一条路径对CD改善最显著,第二条路径对外观指标(PSNR、SSIM、LPIPS)改善最明显,而两条路径融合后则在保持CD优势的同时,外观指标也达到了最佳值。这说明两条路径确实是互补关系,缺一不可。
四、机器人的"长期记忆"为什么容易出问题?
解决了几何感知的问题之后,研究团队转向了第二个挑战:让机器人从过去的经验中学习。这个问题的重要性不亚于几何重建,因为机器人在真实环境中工作时,不可能每次都从零开始思考。
原有系统的知识库(KnowledgeBank)采用了一种相对简单的做法:把每次任务结束后总结出的经验以自然语言片段的形式存下来,下次遇到类似任务时,通过文字相似度检索最相关的几条经验,作为规划参考。
这个设计的问题在于,"文字相似"并不等于"实际有用"。一条来自失败案例的经验,如果被错误地当作成功策略来参考,反而会把机器人带入歧途。一条针对特定物体尺寸总结出的经验,用在尺寸完全不同的新物体上,也可能南辕北辙。更麻烦的是,随着时间推移,知识库里会积累越来越多的内容,其中难免有相互矛盾的条目,没有机制来处理这些冲突。
研究团队把这个问题比作一个没有管理员的图书馆:书越来越多,但没有人去核查哪些书是最新版、哪些书内容有错、哪些书该下架了。读者每次来借书,只能按书名找,完全不知道借来的是不是真正有用的那本。
五、带"质检员"的知识库:governed KnowledgeBank的设计
针对上述问题,研究团队对KnowledgeBank进行了全面升级,核心思路是把每一条经验变成一个"有身份证"的结构化记录,而不是一段无标注的文字。
每条记录包含八个字段:来源查询(这条经验是在什么任务下产生的)、可复用内容(经验的具体描述)、记忆类型(是积极的操作提示、失败的规避约束,还是工具使用说明)、生命周期状态(是刚加入的"试用期"、已验证的"活跃"、已归纳的"摘要",还是已过时的"归档")、置信度、质检分数、冲突链接(记录与哪些其他条目有矛盾),以及验证器的元数据。
这套设计最关键的部分是"验证器"机制。每次任务结束后,系统会用一个语言模型充当"质检员",从任务完成度、空间一致性、碰撞安全性、执行有效性、可泛化程度这五个维度对新产生的经验打分,只有达到一定分数门槛的候选记录才会被正式收入知识库。对于软件代理任务,质检标准则换成了根因分析、代码质量和实证验证。
检索环节同样经过了精心设计。检索一条经验的得分不再仅仅取决于文字相似度,还会综合考虑置信度、历史成功率、新近程度、使用频率,同时对有冲突的记录和已过时的记录施加惩罚。这就像图书馆的推荐系统不仅看书名匹配度,还要看这本书的评分、借阅次数、出版日期,以及是否有后续修订版本。
检索到的记录在送给规划模块之前,会被渲染成结构化的上下文:积极操作类的经验作为可选建议提供,失败约束类的经验作为硬性限制,而被标记为有冲突或已过时的条目则直接屏蔽,不出现在规划上下文中。
知识库还设有周期性的"整理机制":合并高度相似的条目、创建对一组成功经验的摘要记录、在预算超限时将低优先级条目归档。这保证了知识库的规模可控,活跃记录始终是高质量的精华。
六、代理基准测试:记忆治理带来的实际收益
研究团队在两个标准的长任务代理测试集上独立评估了新版KnowledgeBank:Terminal-Bench 2.0(测试代理在命令行环境下完成复杂任务的能力)和SWE-Bench Verified(测试代理解决真实GitHub软件工程问题的能力)。选择这两个测试集的原因是,它们能够在不依赖机器人物理环境的情况下,单独验证记忆模块是否真的能提升长任务的成功率和效率。
实验使用了四个大语言模型骨干分别进行测试:Qwen-3.5-Flash、Qwen-3.5-Plus、Gemini-3-Flash和Gemini-3.1-Pro,与之对比的基线分别是"无记忆"、"AWM(代理工作流记忆)"和"ReasoningBank(推理记忆库)"。每组实验运行五次取均值。
结果来看,KnowledgeBank在所有四个模型骨干上,Terminal-Bench成功率平均比ReasoningBank高出4.53个百分点,SWE-Bench解决率平均高出3.73个百分点,同时平均步数(AS,步数越少说明效率越高)在两个测试集上分别减少了4.95%和5.65%。以Gemini-3.1-Pro为例,Terminal-Bench成功率从73.0%提升到75.7%,SWE-Bench解决率从82.2%提升到85.3%,平均步数分别从28.8降到27.3、从26.8降到25.4。
拆解实验进一步确认了各个组件的贡献。去掉治理模块会导致Terminal-Bench成功率平均下降4.2个百分点,SWE-Bench解决率下降4.4个百分点;仅用语义检索(不做质检和生命周期管理)的版本下降幅度更大,Terminal-Bench成功率平均低4.4个百分点,SWE-Bench解决率平均低5.0个百分点。去掉失败处理模块的下降幅度相对小一些,但也一致存在,说明把失败经验转化为约束而非忽略它,确实有实际价值。
在部署开销方面,KnowledgeBank因为需要运行验证器和治理调用,会产生额外的token消耗,但由于它能减少执行步数,最终总token用量和延迟反而低于AWM和ReasoningBank。以Qwen-3.5-Flash为例,KnowledgeBank的总token消耗为65.0k,低于ReasoningBank的68.4k,延迟也从115.4秒降到了108.9秒,存储空间仅需3.6MB。
七、机器人实战:14项仿真任务和4项真实任务的检验
在机器人规划层面,研究团队将GeoFuse-MV3D和KnowledgeBank整合到完整的GeneralVLA-2系统中,在RLBench仿真环境下测试了14种不同的操作任务,涵盖积木摆放、玩接绳游戏、开瓶盖、关箱子、开箱子、拿杯子、推方块、拿雨伞、整理芥末、开酒瓶、开台灯、放刀具、拾起物体、插入积木等。对比方法包括CAP(通过语言模型生成可执行代码的方法)、VoxPoser(通过三维体素价值图规划路径)和Hamster(使用视觉语言模型生成二维轨迹)。为了让比较对GeneralVLA-2更不利,研究团队给CAP提供了仿真环境的真实物体模型,给VoxPoser提供了分割好的点云,而GeneralVLA-2只使用RGB-D相机观测。
GeneralVLA-2在全部14项任务上都能生成成功轨迹,而Hamster只能完成10项、VoxPoser完成9项、CAP完成7项。在10项任务上,GeneralVLA-2的成功率高于所有对比方法。去掉KnowledgeBank后,成功率在所有任务上都有下降,例如玩接绳游戏从85.33%降到63.33%,开台灯从78.67%降到58.67%,拿杯子从87.33%降到76.67%。
真实机器人实验在搭载Intel RealSense L515深度相机的Agilex-2.0 Piper机械臂上进行,测试了移动喷瓶、拉开抽屉、开瓶盖、整理蔬菜四个任务,每个任务10次评估,分三轮进行。GeneralVLA-2的成功率分别为63.33%、40.00%、53.33%、83.33%,而CAP在这四个任务上的成功率为6.67%、0%、36.67%、70%,RoboPoint则为0%、0%、20%、63.33%。在"拉开抽屉"这个任务上,GeneralVLA-2能够估计抽屉的三维朝向并规划合理的拉力方向,而依赖二维图像定位的RoboPoint完全无法完成。在"移动喷瓶"任务上,KnowledgeBank帮助机器人学会了抓起物体后应该抬多高才能避免碰撞,这是CAP那套手写基础动作库无法提供的细粒度知识。
归根结底,这项研究想解决的是机器人规划中"看清楚"和"记得住"这两个基础问题。GeoFuse-MV3D通过多视角几何融合,让机器人不再需要对物体背面进行高风险的猜测;upgraded KnowledgeBank通过质检、生命周期管理和精准检索,让历史经验能够真正可靠地指导新任务,而不是成为干扰。两者共同作用在规划模块的输入端,不需要重新训练底层策略网络,也不改变机器人的执行层接口,这意味着这套方案可以较为方便地叠加到现有的机器人系统上。
当然,研究团队也坦承了若干局限。GeoFuse-MV3D依赖准确的相机标定和干净的物体蒙版,如果标定出现偏差或者蒙版把背景也圈了进去,软视觉壳的分数就会失去可信度。KnowledgeBank依赖验证器打出准确的分数,如果验证器自身判断失误,就可能让低质量经验混入活跃池,或把有价值的经验错误拦截。现有的真实世界测试还局限于桌面短任务,没有涉及长程移动操作、严重遮挡、柔性物体或人机协作恢复等场景,这些都是后续值得深入探索的方向。
对关注具身智能和机器人规划的读者而言,这项工作提出了一个颇有启发性的问题:在大模型能力飞速发展的当下,让机器人变得更可靠,是否不一定要靠堆砌更大的模型,而是可以从"输入信息的质量"和"记忆的治理方式"这两个相对低调的方向入手?这两个方向或许没有前者那么抢眼,却可能在实际部署中起到四两拨千斤的效果。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.17480查阅完整论文。
Q&A
Q1:GeoFuse-MV3D和普通多视角重建有什么区别?
A:普通多视角重建直接融合多角度信息,而GeoFuse-MV3D在融合前会用物体蒙版验证每个三维点的可信度,对可疑点做软收缩而非删除,并且只融合形状坐标、不触碰颜色和外观属性,避免引入新的视觉误差。
Q2:KnowledgeBank的"生命周期管理"具体是怎么运作的?
A:每条记忆记录会经历四个状态:刚加入时是"试用期",通过质检后升为"活跃",多条相似成功经验会被归纳为"摘要",而过时或低优先级的记录则被转为"归档"。系统还会定期检测冲突条目并处理,确保活跃池中的记忆始终是可靠的。
Q3:GeneralVLA-2在真实机器人上的效果和仿真里差距大吗?
A:真实环境下成功率整体低于仿真,例如拉开抽屉仿真中成功率超过50%,真实环境中为40%,这主要来自真实传感器噪声和物体位姿变化。但与对比方法相比,GeneralVLA-2在真实环境中的优势依然明显,CAP和RoboPoint在拉开抽屉任务上成功率均为0%。