新浪科技股票

RLinf-USER发布！别再用仿真，真实世界训练也能极致效率与系统化

市场资讯 02.11 11:35

（来源：机器之心Pro）

机器之心发布

核心速览：

01. 背景：当 AI 撞上物理世界的墙

在具身智能的浪潮中，我们已经见证了仿真训练的巨大成功。然而，当我们试图将智能带入真实世界时，却撞上了一堵看不见的墙：

真实世界的策略学习（Real-World Policy Learning），不仅是算法的挑战，更是系统的挑战。

今天，我们正式介绍RLinf-USER—— 一个专为真实世界在线策略学习打造的统一且可扩展的系统。它不只是一个训练框架，更是连接数字大脑与物理躯体的 “神经系统”，是实现千台机器人物理世界策略进化的关键一环。

02. RLinf-USER 是什么？

RLinf-USER (Unified and ExtensibleSystEm forReal-World Online Policy Learning) 是基于 RLinf 基础设施构建的专用系统。它的核心理念只有一个：将物理世界的复杂性，封装为简洁的计算流。

图 1 RLinf-USER 是基于 RLinf 构建的真机强化学习专用系统

图 1 RLinf-USER 是基于 RLinf 构建的真机强化学习专用系统

系统设计：

设计 1. 机器人即计算 (Robot as Compute)

RLinf 首次提出 “像使用 GPU 一样使用机器人” 的概念。在 RLinf-USER 中，机器人不再是游离于集群之外的 “设备”。通过统一硬件抽象层 (HAL)，物理机器人被虚拟化为与 GPU/TPU 同等的可调度资源。

设计 2. 云边端无缝协同 (Adaptive Cloud-Edge Link)

大模型在云端，机器人在边缘。RLinf-USER 构建了一个自适应通信平面：

图 2 RLinf-USER 系统设计总览：统一硬件抽象层与自适应通信平面

图 2 RLinf-USER 系统设计总览：统一硬件抽象层与自适应通信平面

学习框架设计：

图 3 RLinf-USER 学习框架设计总览

图 3 RLinf-USER 学习框架设计总览

⚡️ 设计 3. 全异步进化引擎 (Fully Asynchronous Pipeline)

真实世界不能等待。传统的 “采集 - 训练” 同步循环会让机器人把大量时间浪费在等待计算上。

RLinf-USER 采用了全异步流水线设计

图 4 全异步流水线

图 4 全异步流水线

设计 4. 数据的 “时光机” (Persistent-Cache-Aware Buffer)

我们设计了持久化缓存感知缓冲区：

图 5 持久化缓存感知 buffer

图 5 持久化缓存感知 buffer

设计 5. 丰富的在线学习组件支持

USER 在统一的接口下，支持了多样的学习组件，模块化的设计易于二次开发：

03. 硬核实战：它能做到什么？

RLinf-USER 在 5 个真实任务中证明了效率和性能。

图 6 在 5 个真实世界任务上验证 USER，对应不同的 reward、算法、策略

图 6 在 5 个真实世界任务上验证 USER，对应不同的 reward、算法、策略

战绩一：VLA 大模型的在线进化

这是目前少有的支持3B 参数 VLA 模型（PI0）在真实世界进行在线微调的系统。

图 7 USER 框架使用 HG-DAgger 算法微调 PI0 模型。人工干预次数显著下降，成功率从 45%->80%

图 7 USER 框架使用 HG-DAgger 算法微调 PI0 模型。人工干预次数显著下降，成功率从 45%->80%

战绩二：异构机器人 “大一统”

RLinf-USER 完成了一项极具挑战的实验：让两种完全不同的机器人一起学习。

图 8 使用 USER 进行异构训练

图 8 使用 USER 进行异构训练

☁️ 战绩三：跨越千里的 “云 - 边” 协同

针对大模型训练算力在云端、机器人执行在边缘端的典型场景，RLinf-USER 克服了物理距离和网络隔离的障碍。

图 9 USER 自适应通信平面显著降低了跨域部署的通信延迟

图 9 USER 自适应通信平面显著降低了跨域部署的通信延迟

⏱️ 战绩四：异步 vs 同步架构速度的碾压

在经典的插孔（Peg Insertion）任务中：

效率提升超过 5 倍，让原本漫长的训练过程变得立等可取。

图 10 USER 的全异步工作流显著提升了物理世界中算法的收敛速度

图 10 USER 的全异步工作流显著提升了物理世界中算法的收敛速度

战绩五：打破 “内存墙”，数据的无限记忆与极速吞吐

在真实世界长周期（Long-horizon）的训练中，数据是极其宝贵的资产。针对传统 Buffer “存不下” 或 “读得慢” 的痛点，RLinf-USER 拒绝妥协。

图 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能测试，平衡了容量与效率

图 11 RLinf-USER 的 Buffer 在不同配置下的吞吐量性能测试，平衡了容量与效率

04. 为什么选择 RLinf-USER？

如果说 ChatGPT 是 AI 在数字世界的里程碑，那么 RLinf-USER 致力于成为具身智能在物理世界的基石。

如果你是研究者：它兼容 CNN、Flow-based policy、VLA 等多种策略，支持 RL、IL、Human-in-the-loop 等各种算法。它将模型、算法等模块解耦，简化开发难度。

如果你是工程师：它提供了工业级的稳定性（崩溃恢复）和扩展性（自动硬件发现），让大规模机器人集群管理变得像管理服务器一样简单。

此时此刻，机器人不再只是外设。RLinf-USER，让智能真正 “具身”。

视频链接：https://mp.weixin.qq.com/s/4iPmPYghEzbWZeyO9jlD5w

RLinf 发布半年，Github Star 2.5k+，得到了学术界和工业界的广泛认可，达成了多项战略合作，包括英伟达 IssacLab、原力灵机 Dexbotic 等，更多家合作官宣也会尽快和大家见面。道阻且长，26 年 RLinf 仍在为搭建更好的具身智能基础设施而努力，并持续做好可复现生态。团队也开放招生和招聘，欢迎大家联系于超老师（邮件：zoeyuchao@gmail.com）

加载中...