北大联手中科院：给机器人装上"空间记忆"，让它不再靠蒙猜方向

市场资讯 06.24 22:16

（来源：科技行者）

这项由北京大学计算机学院、中国科学院自动化研究所以及AI2 Robotics联合完成的研究，以预印本形式发布于2026年6月，论文编号为arXiv:2606.17480，题为《GeneralVLA-2: Geometry-Aware Reconstruction and Governed Memory for Robot Planning》。

一个机器人要想完成"帮我把红色杯子拿过来"这样一个对人类而言轻而易举的任务，背后需要解决的问题其实相当复杂。它得先"看懂"眼前的场景，搞清楚红色杯子在哪儿、长什么形状、从哪个角度下手才能抓稳，还要回忆起上一次做类似任务时犯的错误，以免重蹈覆辙。研究团队把这个挑战提炼成了两个核心难题，并分别给出了新颖的解决方案，最终形成了一套名为GeneralVLA-2的机器人规划系统。

一、机器人为什么总是"看走眼"？

要理解这项研究的出发点，可以从一个生活场景切入。假设你被蒙住双眼，只允许用一根手指触碰一个陌生物体的某一面，然后要求你描述它的完整形状。你大概率会犯错——因为信息太少，你只能靠猜测填补那些没摸到的部分。

现有的机器人视觉系统面临的处境与此类似。当机器人只从单张照片来理解一个物体的三维形状时，它必须对物体的背面、侧面、底部进行"脑补"，而这种脑补往往会产生错误，导致抓取角度偏差、碰撞判断失误等连锁问题。研究人员把这种现象称为"单目位姿模糊性"和"幻觉背面结构"——听起来像是人类的过度想象，但在机器人身上却会造成实实在在的操作失败。

研究团队的前作GeneralVLA已经在这条路上走了一段：它使用了名为SAM的图像分割工具来识别物体区域，再通过深度相机将二维图像转换成三维坐标，让规划模块能够推理空间位置。但单张图像的局限性始终是个绊脚石。GeneralVLA-2的思路是，当机器人能够从多个角度同时观察同一个物体时，就不需要再靠猜测填补空白了——多个视角的信息可以相互印证，从而构建出更可靠的三维模型。

二、从多个角度"认识"一个物体：GeoFuse-MV3D的工作原理

研究团队设计的这套多视角重建方案叫做GeoFuse-MV3D，它建立在一个叫MV-SAM3D的已有框架之上，但做了一系列关键改进。用一个直观的类比来理解：如果MV-SAM3D是让多位同学分别从不同角度素描一个苹果，然后拼合成立体模型，那GeoFuse-MV3D则是在拼合之前，先用一把"几何标尺"来检验每幅素描的可靠程度，再用"蒙版验证"来确认每幅图里画的确实是同一个苹果，最后只融合形状信息，不触碰颜色和光泽，以免把原本准确的外观搞乱。

具体来说，系统同时输入五个角度的彩色图像、每张图对应的物体蒙版（也就是标出"物体在哪里"的遮罩）以及相机的位置和朝向信息。在这些输入的基础上，GeoFuse-MV3D引入了两条并行的几何修正路径。

第一条路径称为"几何先验主提供者"，它引入了一个外部的几何估计工具（研究中使用的是VGGT，一种能从图像中快速提取三维几何信息的模型），但并不直接信任它的输出，而是把它当作一个参考意见。参考意见需要经过"蒙版一致性验证"：系统把三维点云投影回每张输入图像，检查它落在物体蒙版范围内的比例。如果某个三维点在多数视角下都落在蒙版外，说明它可能是错误估计出来的"幻影"点。

面对这些可疑点，GeoFuse-MV3D不会简单粗暴地删除它们——删除可能造成物体缺失、形状凹陷等更严重的问题。相反，它采用了一种"软收缩"策略：让可疑点向物体中心方向轻轻靠拢一点点，力度取决于可信度的高低，而且设有最大收缩比例的上限，确保不会过度变形。这就像雕塑家修正一个稍微多余的凸起时，不是切掉它，而是轻轻往里推一推。

第二条路径称为"无先验轴补偿"，它完全不依赖外部几何工具，只使用输入图像的蒙版、相机位置和已有的初始三维模型。它沿物体的三个坐标轴方向分别做微小的缩放和平移，让三维模型在各个输入视角的投影结果与蒙版更加吻合。由于它只动形状不动外观，对初始模型的干扰极小，和第一条路径形成了很好的互补。

两条路径分别生成修正后的三维点位置后，系统进行最终融合。融合规则非常保守：只混合几何坐标（即点的空间位置），完全保留原始的颜色、透明度、旋转、缩放以及球谐函数外观属性。混合权重还会根据两条路径各自的蒙版支持度动态调整，支持度越高的来源，在最终结果中的权重越大。

这套流程的整体哲学是"保守优先"——宁可少改动，也不要因为激进修正引入新的错误，毕竟机器人规划对形状误差非常敏感，一点点偏差就可能导致抓取失败或碰撞。

三、实验结果：形状重建的四项指标全面提升

研究团队在一个名为GSO-30的标准测试集上验证了GeoFuse-MV3D的效果。这个测试集来自谷歌扫描物体数据集，包含30个真实家居物品的高精度三维模型，评估协议与MV-SAM3D完全一致：输入相同的五个视角，评估其余视角下的渲染质量。

衡量指标共有四个，可以用拍照的比喻来理解。倒角距离（CD）衡量重建出的三维形状与真实形状之间的"点云距离"，数值越小说明形状越准确；峰值信噪比（PSNR）衡量渲染图像与真实照片的亮度差异，数值越高越好；结构相似性（SSIM）衡量图像在结构、亮度、对比度上的综合相似程度，越接近1越好；感知图像质量（LPIPS）模拟人眼对图像质量的感受，数值越小说明看起来越真实。

对比基准方法MV-SAM3D，GeoFuse-MV3D在这四项指标上全部取得了进步：CD下降了2.20%，LPIPS下降了2.02%，PSNR上升了2.36%，SSIM上升了1.03%。绝对数值方面，CD从45.8876降至44.8770，PSNR从13.2421升至13.5547，SSIM从0.8051升至0.8134，LPIPS从0.2795降至0.2739。

研究团队还做了拆解实验，分别测试"仅用第一条路径"、"第一条路径加软视觉壳"、"仅用第二条路径"、"两条路径融合"这四种配置的效果。结果显示，第一条路径对CD改善最显著，第二条路径对外观指标（PSNR、SSIM、LPIPS）改善最明显，而两条路径融合后则在保持CD优势的同时，外观指标也达到了最佳值。这说明两条路径确实是互补关系，缺一不可。

四、机器人的"长期记忆"为什么容易出问题？

解决了几何感知的问题之后，研究团队转向了第二个挑战：让机器人从过去的经验中学习。这个问题的重要性不亚于几何重建，因为机器人在真实环境中工作时，不可能每次都从零开始思考。

原有系统的知识库（KnowledgeBank）采用了一种相对简单的做法：把每次任务结束后总结出的经验以自然语言片段的形式存下来，下次遇到类似任务时，通过文字相似度检索最相关的几条经验，作为规划参考。

这个设计的问题在于，"文字相似"并不等于"实际有用"。一条来自失败案例的经验，如果被错误地当作成功策略来参考，反而会把机器人带入歧途。一条针对特定物体尺寸总结出的经验，用在尺寸完全不同的新物体上，也可能南辕北辙。更麻烦的是，随着时间推移，知识库里会积累越来越多的内容，其中难免有相互矛盾的条目，没有机制来处理这些冲突。

研究团队把这个问题比作一个没有管理员的图书馆：书越来越多，但没有人去核查哪些书是最新版、哪些书内容有错、哪些书该下架了。读者每次来借书，只能按书名找，完全不知道借来的是不是真正有用的那本。

五、带"质检员"的知识库：governed KnowledgeBank的设计

针对上述问题，研究团队对KnowledgeBank进行了全面升级，核心思路是把每一条经验变成一个"有身份证"的结构化记录，而不是一段无标注的文字。

每条记录包含八个字段：来源查询（这条经验是在什么任务下产生的）、可复用内容（经验的具体描述）、记忆类型（是积极的操作提示、失败的规避约束，还是工具使用说明）、生命周期状态（是刚加入的"试用期"、已验证的"活跃"、已归纳的"摘要"，还是已过时的"归档"）、置信度、质检分数、冲突链接（记录与哪些其他条目有矛盾），以及验证器的元数据。

这套设计最关键的部分是"验证器"机制。每次任务结束后，系统会用一个语言模型充当"质检员"，从任务完成度、空间一致性、碰撞安全性、执行有效性、可泛化程度这五个维度对新产生的经验打分，只有达到一定分数门槛的候选记录才会被正式收入知识库。对于软件代理任务，质检标准则换成了根因分析、代码质量和实证验证。

检索环节同样经过了精心设计。检索一条经验的得分不再仅仅取决于文字相似度，还会综合考虑置信度、历史成功率、新近程度、使用频率，同时对有冲突的记录和已过时的记录施加惩罚。这就像图书馆的推荐系统不仅看书名匹配度，还要看这本书的评分、借阅次数、出版日期，以及是否有后续修订版本。

检索到的记录在送给规划模块之前，会被渲染成结构化的上下文：积极操作类的经验作为可选建议提供，失败约束类的经验作为硬性限制，而被标记为有冲突或已过时的条目则直接屏蔽，不出现在规划上下文中。

知识库还设有周期性的"整理机制"：合并高度相似的条目、创建对一组成功经验的摘要记录、在预算超限时将低优先级条目归档。这保证了知识库的规模可控，活跃记录始终是高质量的精华。

六、代理基准测试：记忆治理带来的实际收益

研究团队在两个标准的长任务代理测试集上独立评估了新版KnowledgeBank：Terminal-Bench 2.0（测试代理在命令行环境下完成复杂任务的能力）和SWE-Bench Verified（测试代理解决真实GitHub软件工程问题的能力）。选择这两个测试集的原因是，它们能够在不依赖机器人物理环境的情况下，单独验证记忆模块是否真的能提升长任务的成功率和效率。

实验使用了四个大语言模型骨干分别进行测试：Qwen-3.5-Flash、Qwen-3.5-Plus、Gemini-3-Flash和Gemini-3.1-Pro，与之对比的基线分别是"无记忆"、"AWM（代理工作流记忆）"和"ReasoningBank（推理记忆库）"。每组实验运行五次取均值。

结果来看，KnowledgeBank在所有四个模型骨干上，Terminal-Bench成功率平均比ReasoningBank高出4.53个百分点，SWE-Bench解决率平均高出3.73个百分点，同时平均步数（AS，步数越少说明效率越高）在两个测试集上分别减少了4.95%和5.65%。以Gemini-3.1-Pro为例，Terminal-Bench成功率从73.0%提升到75.7%，SWE-Bench解决率从82.2%提升到85.3%，平均步数分别从28.8降到27.3、从26.8降到25.4。

拆解实验进一步确认了各个组件的贡献。去掉治理模块会导致Terminal-Bench成功率平均下降4.2个百分点，SWE-Bench解决率下降4.4个百分点；仅用语义检索（不做质检和生命周期管理）的版本下降幅度更大，Terminal-Bench成功率平均低4.4个百分点，SWE-Bench解决率平均低5.0个百分点。去掉失败处理模块的下降幅度相对小一些，但也一致存在，说明把失败经验转化为约束而非忽略它，确实有实际价值。

在部署开销方面，KnowledgeBank因为需要运行验证器和治理调用，会产生额外的token消耗，但由于它能减少执行步数，最终总token用量和延迟反而低于AWM和ReasoningBank。以Qwen-3.5-Flash为例，KnowledgeBank的总token消耗为65.0k，低于ReasoningBank的68.4k，延迟也从115.4秒降到了108.9秒，存储空间仅需3.6MB。

七、机器人实战：14项仿真任务和4项真实任务的检验

在机器人规划层面，研究团队将GeoFuse-MV3D和KnowledgeBank整合到完整的GeneralVLA-2系统中，在RLBench仿真环境下测试了14种不同的操作任务，涵盖积木摆放、玩接绳游戏、开瓶盖、关箱子、开箱子、拿杯子、推方块、拿雨伞、整理芥末、开酒瓶、开台灯、放刀具、拾起物体、插入积木等。对比方法包括CAP（通过语言模型生成可执行代码的方法）、VoxPoser（通过三维体素价值图规划路径）和Hamster（使用视觉语言模型生成二维轨迹）。为了让比较对GeneralVLA-2更不利，研究团队给CAP提供了仿真环境的真实物体模型，给VoxPoser提供了分割好的点云，而GeneralVLA-2只使用RGB-D相机观测。

GeneralVLA-2在全部14项任务上都能生成成功轨迹，而Hamster只能完成10项、VoxPoser完成9项、CAP完成7项。在10项任务上，GeneralVLA-2的成功率高于所有对比方法。去掉KnowledgeBank后，成功率在所有任务上都有下降，例如玩接绳游戏从85.33%降到63.33%，开台灯从78.67%降到58.67%，拿杯子从87.33%降到76.67%。

真实机器人实验在搭载Intel RealSense L515深度相机的Agilex-2.0 Piper机械臂上进行，测试了移动喷瓶、拉开抽屉、开瓶盖、整理蔬菜四个任务，每个任务10次评估，分三轮进行。GeneralVLA-2的成功率分别为63.33%、40.00%、53.33%、83.33%，而CAP在这四个任务上的成功率为6.67%、0%、36.67%、70%，RoboPoint则为0%、0%、20%、63.33%。在"拉开抽屉"这个任务上，GeneralVLA-2能够估计抽屉的三维朝向并规划合理的拉力方向，而依赖二维图像定位的RoboPoint完全无法完成。在"移动喷瓶"任务上，KnowledgeBank帮助机器人学会了抓起物体后应该抬多高才能避免碰撞，这是CAP那套手写基础动作库无法提供的细粒度知识。

归根结底，这项研究想解决的是机器人规划中"看清楚"和"记得住"这两个基础问题。GeoFuse-MV3D通过多视角几何融合，让机器人不再需要对物体背面进行高风险的猜测；upgraded KnowledgeBank通过质检、生命周期管理和精准检索，让历史经验能够真正可靠地指导新任务，而不是成为干扰。两者共同作用在规划模块的输入端，不需要重新训练底层策略网络，也不改变机器人的执行层接口，这意味着这套方案可以较为方便地叠加到现有的机器人系统上。

当然，研究团队也坦承了若干局限。GeoFuse-MV3D依赖准确的相机标定和干净的物体蒙版，如果标定出现偏差或者蒙版把背景也圈了进去，软视觉壳的分数就会失去可信度。KnowledgeBank依赖验证器打出准确的分数，如果验证器自身判断失误，就可能让低质量经验混入活跃池，或把有价值的经验错误拦截。现有的真实世界测试还局限于桌面短任务，没有涉及长程移动操作、严重遮挡、柔性物体或人机协作恢复等场景，这些都是后续值得深入探索的方向。

对关注具身智能和机器人规划的读者而言，这项工作提出了一个颇有启发性的问题：在大模型能力飞速发展的当下，让机器人变得更可靠，是否不一定要靠堆砌更大的模型，而是可以从"输入信息的质量"和"记忆的治理方式"这两个相对低调的方向入手？这两个方向或许没有前者那么抢眼，却可能在实际部署中起到四两拨千斤的效果。有兴趣深入了解技术细节的读者可以通过arXiv编号2606.17480查阅完整论文。

Q&A

Q1：GeoFuse-MV3D和普通多视角重建有什么区别？

A：普通多视角重建直接融合多角度信息，而GeoFuse-MV3D在融合前会用物体蒙版验证每个三维点的可信度，对可疑点做软收缩而非删除，并且只融合形状坐标、不触碰颜色和外观属性，避免引入新的视觉误差。

Q2：KnowledgeBank的"生命周期管理"具体是怎么运作的？

A：每条记忆记录会经历四个状态：刚加入时是"试用期"，通过质检后升为"活跃"，多条相似成功经验会被归纳为"摘要"，而过时或低优先级的记录则被转为"归档"。系统还会定期检测冲突条目并处理，确保活跃池中的记忆始终是可靠的。

Q3：GeneralVLA-2在真实机器人上的效果和仿真里差距大吗？

A：真实环境下成功率整体低于仿真，例如拉开抽屉仿真中成功率超过50%，真实环境中为40%，这主要来自真实传感器噪声和物体位姿变化。但与对比方法相比，GeneralVLA-2在真实环境中的优势依然明显，CAP和RoboPoint在拉开抽屉任务上成功率均为0%。