新浪科技

人形机器人行业专题报告:历史、变化与未来

市场资讯 2023.08.14 19:01

(报告出品方/作者:东北证券,韩金呈)

1. 历史:工业类人形机器人崭露锋芒

1.1. 人形机器人发展的三阶段

人形机器人的“萌芽阶段”(1960-1990)。这一阶段的人形机器人特征为初具“人形 态”,研发重点着重在机器人的“下肢运动”。1968 年,美国的通用电气公司 (R.Smosher)试制了一台名为“Rig”的操纵型双足步行机器人机械,同年,日本 早稻田大学加藤一郎教授在日本首先展开了双足机器人的研制工作,并先后推出了 WAP-1、WAP-3、WL-5 等持续迭代的双足机器人版本,自此人形机器人产业步入萌 芽阶段。此外,除了日本在人形机器人研制上做出较大贡献外,包括英国、苏联等 国家也纷纷加入机器人的研制上,例如,英国于 1970 年研制成功的“Witt”型双足 机器人,苏联则研制出两轮双足行走机器人。 而我国在人形机器人的研发起步相对较慢,自 1985 年始,国内几所科研院校才陆续 开始人形机器人的研发工作,而直到 2000 年,中国国防科技大学经过多年的努力成 果才研制出我国第一台仿人型机器人“先行者”,哈尔滨工业大学也自 1985 年研发 双足步行机器人以来,先后推出 HJT-I、HJT-II、HJT-III 等型号的机器人。

人形机器人的“发展阶段”(1990-2010)。这一阶段的人形机器人特征为附加更多功 能,研发重点从之前的“如何实现更好行走”到“赋予机器人更多其他的‘仿人特 征’”。自 1986 年开始,日本丰田公司推出了 P 系列 1-3 型机器人,在 1997 年推出 了“P3”和 2000 年推出了“ASIMO”,“ASIMO”除了优化步行方式外,还增加了 对手部的操作和控制。同年,日本索尼于 2000 年推出人形娱乐机器人 SDR-3X,该 机器人较以往产品最大的区别在于配备了声音识别和图像识别功能,可以根据音乐 实现节奏运动。丰田和索尼公司推出的新一代人形机器人,将仿人机器人的研制和 生产正式推向实用化、工程化和市场化。

人形机器人的“百花齐放阶段”(2010 至今)。这一阶段的人形机器人特征为 “智 能化”,研发重点从之前的“赋予机器人更多其他的‘仿人特征’”到“机器人如何 衍生自主决策能力”。海外方面,波士顿动力、特斯拉、Engineered Arts、软银等海 外科技企业纷纷发布自主研发的人形机器人,比如 2015 年软银率先实现人形机器 人的商业化进程、2021 年波士顿动力展示运动能力出色的 Atlas、2022 年特斯拉发 布 Optimus 原型机等。国内方面,小米、优必选、傅利叶智能等厂商也积极入局。 该阶段的人形机器人除了运动模块和感知模块更为成熟外,最突出的特点就是大模 型的应用,机器人的训练速度和效率大大提高、强化机器人的自主决策能力。

1.2. 以工业类为代表的产品持续迭代

人形机器人发展至今,涌现出适用于各种应用场景的产品,按照目前主流的场景应 用分类,可大致分为工业类、娱乐&服务类等两大类,对应用在工业场景、家庭&商 业场景。工业类人形机器人主要用于处理物流、制造、安保和复杂任务等领域的工 业场景,替代的是低级和高危人工劳动、以及部分传统工业机器人无法胜任的工种, 比如流水线的后道工序。娱乐类主要实现情感交互和表演展览等场景,而服务类则 主要是从事家庭服务、教育、引导、送餐等场景。

1.2.1. 工业类的代表之作

由于工业场景相较于家庭、商用场景而言,环境的可预测、可控性更强以及机器人 自身造成危害的影响性更低,对处于发展初期的人形机器人而言,工业场景的容错 率相对更高,因此比较适合厂商作为人形机器人投放的第一站。纵观近几年的机器 人新品,工业类产品进展也相对较快,比如波士顿动力的 Atlas、特斯拉的 Optimus、 Agility Robotics 的 Digit 等。 波士顿动力:成立于 1992 年,公司先后借助美国军方、谷歌、软银、现代集团等股 东的支持,陆续发布了 Big Dog、Little Dog、Cheetah、Spot 等四足机器狗和 Atlas 等 双足机器人。于 2022 年和母公司现代汽车共同成立了 BDAII(波士顿动力人工智 能研究所),目标是“引领人工智能和机器人技术的进步”,目前在围绕 Spot 和 Stretch 这类机器人的商业道路和独立的完全专注于 Atlas 的技术研究道路两条路线上齐头 并进。

Atlas:高约 1.5 米,重 80 公斤,拥有 28 个自由度,主动力来源为电池,驱动 方式为液压,配备 RGB 与深度相机,机器人本体共搭载 3 台 NUC/工控机负责 整体控制系统的运算。Atlas 最突出的亮点是能实现像人一样奔跑、跳跃和跨 越障碍,而实现这种跑酷动作的核心源于其独特的感知、规划、驱动以及驱动 背后的制造技术。 感知能力:基于配备的 RGB 摄像头和 TOF 深度传感器,Atlas 能快速生成环境的点 云,再使用一种名为多平面分割的算法从点云中提取平面,机器人中的映射系统将 算法获取的信息构建模型,从而辅助后续的行为规划。 规划能力:一方面,设计人员通过离线优化,为 Atlas 不断创建新的运动轨迹,而在 这些给定的轨迹设计下,Atlas 会在实际行动中尽量选择与之匹配的行为动作,从而减少相关的计算量,提升运动准确性。另一方面,在实际的运动过程中,Atlas 会使 用 MPC(模型预测控制器,该控制器使用机器人动力学模型来预测机器人未来的动 作并计算出当前要做的最优动作)来调整实时的力、姿势和行为时间等细节,以完 成“没有见过的动作”。进一步而言,MPC 的预测特性还允许 Atlas 跨越行为边界 来查看后续动作,使得机器人能实现从一个动作到另一个动作的平滑过渡。

运动能力:在完成感知和动作规划后,机器人要“跑起来”,而液压系统为 Atlas 产 生了强大的推力,在同样的空间内,用液压元件所做的功是电机的数倍甚至是数十 倍,因此液压系统能帮助机器人实现奔跑、跳跃、后空翻等高难度的动作。 制造技术:感知、规划、运动是 Atlas 跑酷的核心程序,而这些动作实现的背后离 不开“如何将重达 80kg 的物体推上天”的制造技术。波士顿动力将 3D 打印应用于 制造 Atlas 机器人的液压动力单元(HPU),用于生产稳态控制器、传感器、过滤器、 排污阀等部件,好处是可以制造紧凑、轻量型阀块,极大减轻重量并提高空间利用 率,从而赋予 Atlas 跳跃和翻腾所需的强度/重量比。

Agility Robotics:成立于 2015 年,公司以生产腿部行走机器人为主,专门为物流和 制造企业提供仓库机器人,以应对季节性需求波动造成的劳动力短缺,主要是可以 协助人工完成卸货搬箱、管理货架、最后一公里配送等任务。 Digit:高约 1 米,重 31 公斤,拥有 18 个自由度。Digit 在高难度动作、复杂环 境适应等高阶维度可能不如波士顿动力的 Atlas 以及特斯拉的 Optimus,但是作 为仓储的搬运机器人,其突出的特点就是“实用”,即能在不充电情况下“暴走” 5km,意味着 Digit 能较好地自适应工厂中的各种复杂场地和实现高续航能力, 完美适配特定场所的使用需求,而能实现稳定敏捷的运动,核心源于其深度学 习能力和独特的运动设计。

学习能力:让 Digit 学会走路,需要用到强化学习和模仿学习。其中,强化学习解决 马尔可夫决策过程( Markov Decision Process, MDP)的最优策略,需要用到策略梯 度算法;而模仿学习则需要解决参数策略问题。用关键算法 DASS 来搞定数据集, 再将 DASS 于强化学习、模仿学习结合在一起,为机器人设定策略。通过强化学习 和模拟学习,训练双足机器人模拟及适应不同高度的地面变化,而且只需要稍加改 变现有的平地强化学习框架,就可以在楼梯、不平的地面等场景中稳健地行走。 运动设计:在下肢架构上,Digit 及其第一代产品 Cassie 最大的特点就是他的“鸵 鸟腿”,在动力学部分参考了鸟类步态,尤其是鸵鸟,膝盖设计成弯曲形状,能以比 较自然的方式去减缓震动。同时在自由度配置上,Digit 在下肢也配备了较多的自由 度,每条腿 5 个自由度,其中臀部 3 个,允许腿向前、后、侧三个方向摆动,胫骨 和脚踝各 1 个自由度,但区别于臀部由电机驱动,后两者是附着在弹簧上,有助于 机器人在遇到障碍物时也能保持平衡。另外,Digit V2 版本还对足部进行了优化, 增加了横滚自由度,使得 Digit 可以在不进行侧向踩踏的条件下抵抗侧向力冲击, 甚至可以实现单脚的静态平衡。

1.2.2. 娱乐&服务类的代表之作

工业类人形机器人侧重点在“工作”,而娱乐&服务类则着重在“交互”,前者更多 是在传统工业机器人基础上增加“人形态”,使得机器人更适合替代人类工作,而后 者在某种意义层面更符合“仿人机器人”的概念本质---能成为“人”。

Engineered Arts:成立于 2005 年,公司至今推出了 6 款机器人,最新型号 Ameca 是 Engineered Arts 机器人技术的集大成者。公司的产品已用于娱乐与教育行业。 Ameca:高 1.87 米,重 49 公斤,拥有 51 个主要关节并配置 52 个电动马达。 Ameca 最突出的特点就是能实现复杂的脸部表情管理,而这样逼真的仿人表情 核心在于结合了 AI 与 AB(Artificial Body)技术。此外,Ameca 在近期接入 了 GPT-4 训练其语言能力、嵌入了 Stable Diffusion 赋予了自身绘画能力。因 此,可以看到 Ameca 除了运动能力外,在各方面都不断逼近人类的真实行为。 而 Ameca 能实现这样的动作表现,离不开其底层系统,包括机器人操作系统 Tritium 和工程艺术系统 Mesmer。

Tritium:该系统类似于“大脑”,主要负责智能化和各个机械结构之间的联动。Tritium 可以直接在浏览器运行,适用几乎任何编码语言和多种软件,登录后即可快速处理 各种数据,远程控制机器人面部、头颈、四肢等的各方面组件,使得机器人适应环 境的突然变化并即时做出响应,保证人机交互的安全和乐趣。 Mesmer:该系统负责展现身而为人的“灵魂”,像是给出人类的情绪表情和肢体语 言。为了让 Ameca 看起来像人,Mesmer 平台首先解决的是关节问题,通过对颈部 的设计,让头部可顺滑转移到任何方位,其次是通过搭配 LIDAR 设计侦测移动物 体,让机器人能一直注视和它说话的人类,然后通过对手臂、手腕、肩部等部位的 设计,让机器人能做出微妙的肢体语言,比如“耸肩”,最后搭配上人工皮肤,使得 Ameca 从语言表达到行为动作,都表现得和人一样流畅自然。

2. 问题&变化:政策扶持加码,软件端迎来奇点

人形机器人从提出概念到最近一年各厂商最新型号的推出,已经迈过了 60 个年头, 发展阶段也从“萌芽”到现今的“百花齐放”,工业类出现了以波士顿动力、特斯拉 为代表的优秀产品,娱乐&服务类进展也持续推进,特别是最近几年,人形机器人 的产业发展持续超乎市场预期。而站在当前时点,我们可以看到整个人形机器人产 业自上而下都出现了推动产业和产品向下一阶段演变的新变化,另一方面从产品本 身角度来看,人形机器人也存在不少的问题有待解决。具体而言:

产业维度:今年以来,国内针对人形机器人的政策走向更为积极的方向,包括 对产业的顶层设计和产业链的各环节扶持都陆续出台了相关政策,人形机器人 的国内产业环境正逐步得到优化,我们认为,此举或类似此前新能源车和光伏 产业爆发前夕,政策的持续加码下的产业正逐步走出平台期、迈向下一阶段。

产品维度:人形机器人按照系统进行划分,可大致分为感知、控制、执行系统, 其中感知和控制系统主要依赖算法、模型等软件,执行系统则主要是通过执行 器及其中的零部件来实现。软件端,随着近年来大模型的爆发性发展,机器人 的算法训练、感知能力和人机交互等方面都得到极大地改善,可以说软件端在这一轮 AI 革命中迎来了奇点时刻,机器人作为 AI 技术的载体也跟随 AI 的变 革出现了巨大变化。硬件端,相较于软件端的问题不断得到优化,机器人在下 肢行走和手部集成等方面上仍存在一定的硬件问题。 简而言之,我们认为,虽然硬件端的问题有待完善,但受益于产业维度的政策催化 和产品维度的软件优化,人形机器人产业应该会比之前的三个发展阶段“走得更快”, 更多的优秀产品也有望加速落地,推动人形机器人最终走向人类社会。

2.1. 产业维度:国内政策不断加码

今年以来,针对机器人以及人形机器人的政策呈现显著变化。 一是从数量维度来看,2023 年提出的相关文件明显要比往年更多,根据不完全 统计,今年出台的政策文件共计 6 份,而 2019-2022 年间共计出台的相关政策 文件才 8 份,可以看到国家在对机器人产业的扶持力度上不断加码; 二是发布政策的部门由中央层面逐步扩散到地方层面,比如在 2019-2022 年, 发行部门均为包括发改委、工信部、科技部等部委级以上的单位,但是今年以 来,包括上海、深圳、北京等一线城市均出台了相关的机器人行动方案,我们 认为此举意味着各地政府开始深入落实国家对于机器人产业的支持指导,有望 加速机器人产业的落地,推动相关企业在主流城市的发展; 三是从政策的内容来看,今年以来出台的政策更多提及“人形机器人”这一概 念,而非笼统的“机器人”,比如北京的《行动方案》中,提及“对标国际领先 人形机器人产品,支持企业和高校院所开展人形机器人整机产品、关键零部件 攻关和工程化,加快建设北京市人形机器人产业创新中心,争创国家制造业创 新中心。”,可以看出,政策的重点从最初聚焦在传统工业机器人逐步扩散到人 形机器人上面。

进一步而言,即使是今年发布的机器人政策也呈现出显著变化。我们将北京市在 6 月 28 日发布的《北京市机器人产业创新发展行动方案(2023—2025 年)》,与之前 上海、深圳、山东等省市发布的相关政策作对比,可以发现,最明显的区别在于: 之前的政策更多是立足在顶层设计维度对机器人及人形机器人产业作出指导,对产 业在发展趋势上提供了建议,而北京的《行动方案》除了顶层设计外,特别地将人 形机器人产业链中重要的零部件单独提出来,包括减速器、伺服驱动系统、控制器、 传感器、末端执行器等,对其也同样提出了对应的指导意见。 我们认为,北京的《行动方案》有着更为重要的意义,一是代表着产业政策从顶层 设计落脚到具体的产业链环节,为各地方政府对相关企业的扶持提供了更为明确的 指导和要求,加速具体细则的落地;二是重点提及人形机器人产业链中的关键环节, 对技术难度大且价值量高的零部件环节和企业提供支持,有望进一步完善我国人形 机器人产业链,为后续产业链降本奠定基础,加速下游人形机器人产品的迭代和商 业化落地。

2.2. 产品维度:软件端迎来奇点,硬件端有待优化

2.2.1. 软件端:AI 赋能机器人

在人形机器人的产品层面,软件端的变化显得尤为突出,特别是 AI 技术的发展,逐 步渗透到机器人研发和生产中,并在算法训练、感知能力、人机交互等多个维度对 人形机器人产生重大影响。

2.2.1.1. 算法训练

在现实世界中构建机器人需要从头开始创建数据集,这样做既耗时又耗费成本,并 且训练速度较慢。开发人员为了降低成本并加快训练,逐步开始采用合成数据生成 (SDG)、预训练 AI 模型(pretrained AI models)、机器人仿真(robotics simulation)、 迁移学习(transfer learning)等一系列工具。而以英伟达、谷歌为代表的大厂近几年 在这些工具开发上均取得较好进展,为机器人客户在研发和训练上提供更为成熟的 工具。

1) 英伟达

Isaac 是英伟达推出的一款专门用于机器人环境模拟的引擎,提供从数据合成和训 练、到仿真和测试的全流程配套支持,他融合了机器人相关的深度学习、强化学习、 SLAM、图像处理等的算法。基于英伟达强大的硬件支持,相较于此前常用的仿真 器(VREP、ROS 等),Isaac 在性能、算法、渲染效果、生态支持等维度都明显更为 出色。

数据合成:Isaac Sim 是英伟达的一个机器人模拟应用程序及合成数据生成的工 具,而 Isaac Sim Replicator 作为其中用于合成数据生成的引擎,可以生成物理 级精确的 3D 合成数据,用以加速 AI 感知模型的训练和性能。 ➢ 模型训练:NVIDIA NGC 汇集了通过 GPU 优化的 AI 软件、模型和 Jupyter Notebook 示例,包括各种预训练模型以及为 NVIDIA AI 平台优化的 AI 基准和 训练方式。研发人员通过 NVIDIA NGC 选择合适的预训练 AI 模型后,通过 NVIDIA TAO 进行进一步的训练和微调(NVIDIA TAO 作为一个可使用自定义 数据训练、调整和优化的框架,使用 NVIDIA TAO 工具包能帮助研发人员微调 NVIDIA NGC 目录中的预训练 AI 模型)。

仿真和测试:研发人员通过使用仿真器,检测物体之间的潜在碰撞和识别碰撞 物体之间的接触点,并计算机器人的传感器信号,借此来构建虚拟场景,在这 个虚拟世界中,开发人员创建了机器人、环境以及机器人可能遇到的其他资产 的数字版本。这些环境可以遵守物理定律,并模仿现实世界的重力、摩擦、材 料和照明条件。在所构建的虚拟场景中,研发人员通过此前搭建的预训练模型 进行运动规划和任务规划,并让机器人执行任务。在对虚拟场景中执行任务的 机器人进行多次试错和调整,以此不断优化控制信号,从而验证和优化机器人 的设计、系统及其算法,为机器人在现实世界执行任务实现最高效率打下基础。 至此,英伟达的 Isaac 平台从数据合成、模型训练到仿真测试等提供了全流程的配 套支持,帮助机器人客户实现 0-1 构建一个机器人,并大大降低了训练的成本和提 高了机器人训练的速度。

2) 谷歌 2023 年 6 月 20 日,发布名为 Robocat 的 AI 模型,作为世界上第一个能解决和适应 多种任务的模型,能安装在不同的现实机器人上使用。Robocat 是一个用于机器人 操作的能实现自我迭代的智能体,可以在虚拟和现实世界中实现多项任务,包括对 文字、图像、语音等的处理。Robocat 最大的特点是在于“自我迭代”,所谓的自我 迭代是指基于一定数量的源于现实世界的数据集,对该数据集进行微调后衍生出新 的数据集,将现实世界和衍生出来的数据集进行融合,并在此基础上进行新的训练,以此循环反复继而不断扩充智能体的学习数据。具体来说,每个新任务的学习遵循 5 个步骤: 1. 使用由人类控制的机械臂收集 100-1000 个新任务或机器人的演示; 2. 在这个新的任务/手臂上微调 RoboCat,创建一个专门的衍生代理; 3. 衍生代理在这个新任务/手臂上平均练习 10000 次,生成更多的训练数据; 4. 将演示数据和自生成数据整合到 RoboCat 现有的训练数据集中; 5. 在新训练数据集上训练新版本的 RoboCat。

而且这样的“自我迭代”具备良性循环的训练:学习的新任务越多,它学习其他新 任务的能力就越好。RoboCat 的初始版本在以前看不见的任务上只有 36%的时间成 功,每个任务从 500 个演示中学习。但是最新的 RoboCat,它已经训练了更多样化 的任务,在相同的任务上,成功率增加了一倍多。 简而言之,RoboCat 作为目前为止机器人控制 AI 模型的“最优形态”,核心优势在 于在合成数据生成维度的跳跃式发展,能快速根据模拟和现实世界中收集到的图像 和动作数据进行训练,大大降低了机器人对新任务的学习时间和障碍,极大地提高 了训练效率。

2.2.1.2. 感知能力

人形机器人的感知是指通过各种传感器的信息收集,将被测量的环境信息转化为电 信号或其他所需的形式,然后经过数据处理阶段,输送到不同的感知算法,为机器 人后续的规划、控制阶段提供支持。机器人的传感器按照类别可以分为多种,包括 视觉传感器、力矩传感器、触觉传感器、听觉传感器等,虽然每个传感器的功能都 不一,但是当机器人执行某一动作时有可能需要同时用到多种传感器的信息,比如 用于识别环境时,需要使用摄像头、激光雷达、毫米波雷达等传感器,机器人才能 比较精准地确定物体的信息并进行后续的操作。因此,如何融合多个传感器的信息, 并通过感知算法同时处理多维度信息,是人形机器人在运动规划和感知能力上需要 解决的问题。 多传感器融合(Multi-sensor Fusion, MSF),是指利用计算机技术,将来自多传感 器或多源的信息和数据以一定的准则进行自动分析和综合,以完成所需的决策和估 计而进行的信息处理过程。和人的感知相似,不同的传感器拥有其他传感器不可替 代的作用,当各种传感器进行多层次,多空间的信息互补和优化组合处理,最终产 生对观测环境的一致性解释。传感器融合能帮助机器人提高识别精度、增强鲁棒性、 扩展覆盖范围。

AI 大模型将优化多传感器融合技术。按照信息融合架构进行划分,可以将传感器融 合技术分为分布式、集中式和混合式,或者可以分为后融合算法和前融合算法,或 者可以分为数据级、特征级和决策级融合。其中,目前常用的是分布式/后融合算法, 其核心思想是每个传感器都有自己独立处理的目标数据,融合模块将对各传感器的 滤波结果进行有效结合,而集中式/前融合算法则相反,使用一个感知算法对多维综 合感知数据进行处理。 在以往算力受限和模型发展不成熟的情况下,使用分布式/后融合算法能在牺牲一定 精度的同时降低算法复杂度,但由于不同传感器的数据类型不一,系统稳定性也会 因此受到影响,而且受限于单一类型传感器的能力上限,后融合算法会导致特定条 件下的偶发性漏检或误检。而随着算力的提升和多模态大模型的发展,数据级/集中 式/前融合算法的缺点有望得到弥补,比如集中式融合存在因中央处理单元性能不足 导致通信延迟和计算瓶颈的问题,而 AI 大模型的算力提升将解决这一点,从而将 目前主流的融合算法方案从后融合/分布式/决策级推向前融合/集中式/数据级,数据 级的传感融合也能减少感知过程中原始数据的信息损失而提高感知精度,提高数据 处理的准确性。

基于 TransFormers 模型的多传感器融合技术率先在自动驾驶领域得到应用。 TransFormers 作为可能取代 CNN 和 RNN 的深度学习模型,能快速地完成对大量数 据的特征提取,使得大模型在多模态信息处理上的能力得到不断强化。而 TransFormers 需要海量训练数据,而大模型和更大参数量级的发展将推动 TransFormers 模型的完善,驱动数据级的感知算法进一步优化。特斯拉在 2021 年的 AI Day 上率先发布 BEV+TransFormers 算法,基于“输入-提取-转换-融合-时序-输 出”的思路,实现“2D-3D-4D”的转换。

2.2.1.3. 人机交互

AI 大模型对机器人在人机交互层面的影响除了能实现更好的对话交流,让机器人执 行语言任务外,更为重要的影响是在于能将人类传递的自然语言转化为执行任务的 指令,让机器人能根据指令反馈物理操作。

1) 语言任务

近年来,大型语言模型(LLM)在语言生成和理解方面取得了重大进展,LLM 的使 用帮助机器人更好地理解和学习人类语言,并根据人类的意图和语气,进行语音交 流和反馈。比如,波士顿动力将 ChatGPT 安装到机器狗 Spot 中,Spot 能根据工作 人员的问题作出相应的回答,并且能根据机器狗自身的实际情况,将信息反馈给工 作人员,例如当被问及下一次任务的检查次数时,Spot 能准确回答次数。除了能反 馈语音信息外,机器人还可以根据所表达的语言,传递面部表情,例如,Engineered Arts 将 GPT-4 接入到 Ameca 中,Ameca 不仅能流畅地和人类进行交流,还会根据 聊天的内容作出相应的面部表情,包括皱眉、吃惊、生气、眨眼等。

2) 物理任务 更进一步而言,我们其实不仅希望 LLM 在机器人中的角色仅仅作为一个“语音助 手”,对外界输入的信息作出包括语言、图片甚至表情等的输出反馈,更是希望输入 的语音信息如何转化为能使机器人主体在现实世界中作出物理行为。简单来说,我 们希望 LLM 帮助机器人实现与人的对话互动,以及更为重要的动作互动。 如何实现机器人与环境的物理交互,谷歌在今年推出的视觉语言模型 PaLM-E 给出 了答案。PaLM-E 作为一个具备 5620 亿个参数,集成了视觉和语言,用于机器人控 制的视觉语言模型(VLM),与 LLM 不同之处在于其对物理世界的感知。PaLM-E 能驱动机器人执行任务,比如当人类给机器人一个高级指令,PaLM-E 可以为机器 人将这一指令生成行动规划,然后让机器人亲自执行。为什么 PaLM-E 能实现这样 的功能?具体来说,PaLM-E 是基于谷歌现有的大型语言模型 PaLM,通过添加感官 信息和机器人控制而迭代生成的。因此:

一方面,它具备大型语言模型的功能。通过语言模型将指令分解为一系列文本 步骤,同时训练人员会为机器人预先提供一个基础技能库,这个技能库包含了 一系列的“原子”技能,每个“原子”技能对应执行一个短任务。因此当机器 人接受到高级指令时,会通过 LLM 将其拆分为多个简单动作,而且这些简单 动作已经存在于训练集中,机器人只需要把对应的动作从训练集中摘取出来, 组成一套行为步骤即可。 另一方面,它具备分析图像和传感器数据的能力。通过分析机器人相机收集的 数据,PaLM-E 可以将这些图像、语音之类的数据,编码成一系列与语言标记 大小相同的向量,类似语言模型处理语言数据一样处理感官数据。最后,通过 神经网络对机器人实现控制。 简而言之,要实现机器人的动作互动,一是要通过 LLM 使机器人理解人类的自然 语言,二是通过 VLM 使机器人实时理解周围的环境以便后续的任务操作。因此, 在未来,“LLM+VLM”将成为机器人作为一个智能体能够推理环境、任务,并完 全根据语言采取行动的核心框架。

但是,上述的做法存在一个较大的问题,万一拆分出来的短任务并没有出现在数据 集中,那如何处理?即当面对没有预训练样本的行为动作,机器人该如何执行相应 任务。针对这一问题,学术界最近也提出了新的解决方案,2023 年 7 月 12 日,李 飞飞团队发布最新成果展示:通过大模型的接入,能直接将复杂指令转化为具体行 动规划,而无需额外的数据和训练。换句话来说,当人类通过自然语言向机器人发 出指令后,机器人通过视觉系统识别物体并进行行动规划,然后在没有预训练的基 础上执行了任务。

2.2.2. 硬件端:零部件有待优化

人形机器人的执行系统由多个执行器组成,而执行器主要安装在机器人的双臂和双 腿,帮助机器人实现手部操作和腿部移动的两个主要功能,因此机器人的硬件端问 题主要集中在上肢的手部和下肢的腿部两个部位。

2.2.2.1. 下肢:行走稳定性

虽然已经有以 Atlas 为代表的机器人能实现十分炫酷的奔跑、跳跃等动作,但其实 目前对于大部分双足人形机器人而言,行走稳定性仍然难以保证,特别是针对非直 线平面的环境,机器人因为感知、规划等问题仍会出现失去平衡等现象,而且使用 双足行走的机器人目前行走缓慢,最高行走速度也只有 1-2m/s,比如 Optimus 最高 时速为 5 英里/小时、Atlas 时速为 2.5m/s、CyberOne 时速为 3.6km/h 等。因此,对 于人形机器人而言,首要问题仍是使机器人“像人一样行走”---在各种环境中平稳 行走甚至奔跑,同时还拥有较快的速度。而目前看来,从脚部的传感器、驱动器的 方案到控制器的算法规划,都有待进一步完善的地方。下面我们主要讨论硬件端的 问题及解决方案,即驱动器和传感器的情况。

1) 驱动器

存在的问题:反射惯性大。为了实现动态任务,机器人的驱动系统需要发挥出与机 器人总重量相匹配的力,换句话来说,就是机器人的下肢需要较高的力密度。一般 而言,增加执行器的转矩密度比较常用的方案是增加减速器的传动比,但这样做的 缺点是增加传动比的同时会增加关节中的摩擦力和转子的反射惯性,从而降低肢体 的反向驱动能力及其调节和减轻冲击的能力。而且更为重要的是,传动比不能无限 地增加,因为反向驱动性能的下降速度是要明显快于扭矩密度的增加速度。简单来 说,目前常用的高齿轮减速比的方案(比如谐波减速器+力矩传感器)可以使得机 器人的扭矩密度在有限范围内增大,但同时由于其摩擦力增大和脆弱性提高,机器 人只能比较缓慢地行走。

2) 力矩传感器

存在的问题:负载能力不足。安装在机器人脚部的力矩传感器是最基本的传感器, 他的作用是测量施加在其脚上的地面反作用力和力矩,进而用于计算零点矩点,作 为控制机器人行走稳定性的重要参数。但是基于传感器中的弹性体设计等因素,六 维力矩传感器在刚度、测量精确性、灵敏度等存在不足。特别是刚度问题,根据数 据统计,目前六维力矩传感器的最大力负载一般仅为机器人重量的 1-2 倍(当面临 外部干扰或者变化复杂的地面环境时,载荷也随之下降),一旦承受超出这一范围 的冲击力(机器人奔跑时的负载范围较步行时更小),传感器或出现故障并影响机 器人的行走。 另外,传感器中的扭矩范围也受到机器人重量和脚部尺寸的限制,一般而言,脚踝 扭矩要求不大于机器人重量和脚部尺寸的乘积。

解决方案:为了避免传感器在意外情况下受到损坏,目前业界一般采用过载保护机 制+安装冲击吸收部件的组合方案,一是过载保护机制,通过制动器来实现断开保 护,二是在传感器中安装冲击吸收部件以减轻机器人接触地面时的反作用力,比如 安装阻尼器、记忆材料、液压减震器、弹簧等。在《Design of a Highly Dynamic Humanoid Robot》中也提到,使用定制的足部传感器仅测量脚趾和脚跟的垂直反作 用力,附加一个六维的 IMU 用于测量地面的接触状态,这样能减少传感器的受力负 载,同时使用线切割来作为过载保护。 总体而言,目前针对传感器载荷能力的问题,要么采用减少维度的方式降低受力(比 如使用三维力矩传感器),要么采用增加结构件的方式缓冲受力,这两种方法虽然一 定程度上弥补了传感器刚度不足的问题,但同时导致测量精度下降和腿部关节模组 集成难度增大等问题,因此如何根据人形机器人的足部特点定制适合的传感器,最 大程度保证行走稳定性仍然需要学术界和业界的进一步探讨。

2.2.2.2. 手部:零部件集成

如果说实现双腿的平稳行走是人形机器人的第一功能和要求,那么将机器人推向商 业化的核心就是如何通过机器人的双臂执行任务来实现机器人的商用价值。人形机 器人的双臂是实现大部分工业操作的工具,因此对双臂的要求主要集中感知物体和 承载物体两个维度,前者帮助机器人在执行任务前识别所需要操作的目标,后者帮 助机器人在工业流程中应对各种任务。具体到硬件端,基于工业机械臂的成熟工艺, 机器人在手部构成上可借鉴机械臂的技术,而区别在于人形机器人对于精细化操作 要求更高,因此需要在传感器上进一步优化。目前机器人的主要问题体现在传感器 上,虽然和腿部的硬件类似,但是手部对于传感器的要求与上述谈到的腿部部分有 所不同。

1) 传感器

人形机器人的灵巧手安装有多个不同的传感器,以腾讯的 TRX-Hand 为例,手指就 结合了视觉、接近觉、触觉和力觉传感器,而其中触觉和力矩传感器是大多数灵巧 手都会配置的,用以在接触物体时,获取物体的位置、形状和受力等信息,使机器 人能感知物体的状态并在物体交互时更为轻柔和自然。

存在的问题:集成难度大。相对于腿部而言,手部对传感器的集成有更高的要求。 比如手部一般具有 10-12 个自由度,这就意味着需要将 10-12 组关节模组(包括驱 动器、传感器和结构件等零部件)都集成到手掌,这大大提高了对零部件的体积和 重量的要求。进一步而言,光是将触觉传感器集成到手指和指尖就存在不少问题, 比如机器人的手和人类指骨有所不同,前者的手指近端和中端的距离要比人类的短, 接触面积的缩小导致连接困难,而且由于灵活性的原因,触觉传感器不能完全覆盖 手指链接之间的空白区域。又比如,触觉传感器的触觉元件增多会导致读取和传输 数据的导线增多,导线数量越多集成难度越大,而将并行连接改为串行连接可以减 少导线数量,但会导致传输速率变慢,等等。 解决方案:针对集成问题,目前逐渐被市场所接受的是通过 3D 打印技术将传感器 嵌入机器人的手指,传感器之间的紧凑性、坚固性以稳定性也因此得到提高,常用 的材料包括 TPU、炭黑、CNT 等。另外,研究人员也提出使用欠驱动运动 (underactuated movements,当致动器数量小于自由度时,机器人系统就被称为欠驱 动系统),通过减少致动器数量并简化结构来实现自适应抓取,将驱动力传递给欠驱 动关节,从而简化了机械手的组装,以降低集成难度和成本,等等。

3. 未来:应用场景&市场空间

人形机器人的应用场景会是哪里?为什么在过去十年各家科技企业纷纷染指机器 人赛道,并且花费大量的时间、成本和人力进行数次的试验和测试。虽然现在基于 高昂的成本和不成熟的技术,人形机器人的应用场景有限,短期也难以激起大量的 市场需求,但是我们认为,正如马斯克所说,当人形机器人成熟后,机器人的需求 将远超汽车等产品,届时机器人的作用将作为人类的“替代工具”,替代人类在工业、 家庭、商业中的部分功能,特别是成本、安全、健康等因素导致人类无法胜任的工 种,机器人的应用场景也遍布人类生活和工作的多个地方。比如,人工智能机器人 公司 Figure 制造通用类人形机器人的目的就是为了解决劳动力短缺、人口老龄化、 外太空探索等问题。因此,考虑到成本、需求以及容错率等因素,我们认为,人形 机器人将率先在工业场景,特别是工厂中落地,随后经过技术优化和成本下降,场 景将逐步渗透到家庭和商用。

3.1. 工业场景:替代传统工业机器人和人类劳动力

3.1.1. 性能+成本优势凸显

在人形机器人中,未来率先应用的大概率会在工业场景,去取代重复、无聊、危险 的工作,替代传统工业机器人和人类劳动力。 性能优势下,机器人将部分替代传统工业机器人。现阶段传统工业机器人基本上能 覆盖工业制造中大部分的使用场景,那人形机器人取代的是哪部分工种呢?传统工 业机器人存在灵活性较差的问题。对于工业机器人而言,按照应用场景来分类,可 以分为搬运、码垛、分拣、焊接、装配、喷涂、切割、检测等用途,目前主要以搬 运和焊接为主,其他场景由于工业机器人的可移动性较差、安装条件要求较高等原 因无法较好地使用机器人。按照作业方式进行划分,可以分为直角坐标、圆柱坐标、 SCARA、多关节、协助机器人,除了协助机器人外,前 4 种属于传统工业机器人, 这些传统工业机器人存在的问题是,虽然可以按照需求开发新的功能,但是需要专 业人员进行编程、测试、开发等一系列流程,灵活性较差,而协助机器人虽然操作 简单、编程方便,但是只适合用在任务简单的工种,且属于轻量级机器人,负载能 力相对较弱。因此,归纳起来可以发现,传统工业机器人的灵活性、易用性较差, 难以满足一些长尾和灵活性要求较高的工业需求。

人形机器人将作为传统工业机器人的重要补充。人形机器人的优势在于,在运动方 面能像人一样灵活移动,快速移动到工厂中各种场景,在任务执行中基于大模型训 练迭代后形成的自主决策能力,能针对各种工作和场景做出实时的反馈。简单而言, 人形机器人在工业场景中,依靠更高阶的自主决策能力和更灵活的移动方式,能较 好地填补传统工业机器人的不足、替代原本由人工操作的工作。

成本优势下,机器人将部分取代人类劳动。海外高昂的劳动力成本使得机器人替代 人工的优点越发凸显。以美国为例,用工成本除了基本薪酬外,还包含税收、福利、 保险、培训费用以及各种法律法规风险造成的潜在成本。首先只粗略对比基本薪酬, 根据美国劳工统计局数据,2023 年 5 月美国所有员工的实际平均工资为 28.83 美元 /小时,联邦规定的最低工资标准也达到 7.25 美元/小时,我们假设人形机器人的初 期售价为 3 万美元,按照 10 年折旧,每年工作 360*24h 进行计算,对应的用工成本 仅为 0.35 美元/小时,远远低于最低工资标准,而按照敏感性分析,当机器人售价达 到 20 万美元且使用寿命仅为 3 年时,对应的用工成本才接近美国最低工资标准。 当然,这样计算存在不妥之处,比如人工劳动方面,包含税费、福利和保险费用等 各种成本并没有考虑进去,而机器人方面也需进一步考虑机器人的电费、维修和保 养等各种费用。但总体而言,通过简单的成本对比,我们仍能看到人形机器人在工 业场景替代传统劳动力的经济性,未来即使由于各种原因并不能完全取代人类,但 也能部分替代性价比更低的工种。

3.1.2. 工业场景的市场空间

依靠上述的优势,人形机器人在工业领域将逐步取代传统工业机器人和人类劳动力。 因此我们以工业机器人的保有量和劳动力数量为锚,假设人形机器人在工业机器人 的渗透率将从 2024 年的 1%逐步提升到 2030 年的 30%,同时假设单个人形机器人 能取代 2-5个人类劳动力且在劳动力的渗透率从 2024年的 0.0003%逐步提升到 2030 年的 0.1%。那么,对应 2024 年工业领域的人形机器人出货预计为 1.6 万台,到 2030 年这一数字将增加到 328.4 万台,CAGR 达 143%。

3.2. 家庭&商用场景:成为人类生活的一部分

3.2.1. 人机交互的价值体现

人形机器人有望成为人类日常生活重要构成。在 2023 年的特斯拉股东大会上,马 斯克表示,当 Optimus 成熟后,届时机器人和人类的配置比例应该达到 1:1 甚至 2:1,对应人形机器人的出货将至少达到 100 亿台以上,因此机器人的需求将远远超过车, 特斯拉的长期价值中的大部分也将来源于 Optimus。 在老龄化日趋严重以及单身率持续攀升的社会上,越来越多的群体需要替代工具来 实现部分人类的功能,比如陪伴、聊天、安抚等,而相较于普通的商品而言,人形 机器人具有显著优势。人形机器人作为 AI 的重要载体之一,能搭载包括 ChatGPT 等多种先进模型和技术,更好地识别环境和理解人类生活,实现和人类的日常对话、 服务娱乐、陪伴看护等多种技能,将逐渐成为人类家庭和商业场景中重要组成部分, 其作用和功能远远大于一般的商品。因此,长期来看,人形机器人有望成为解决人 类部分心理需求的重要工具。

能提供情绪价值的机器人已逐步推出。能流利地和人类对话并提供情绪价值是机器 人踏进人类生活的重要一步,而现今越来越多企业为人类生活陪伴推出了专门的聊 天陪伴机器人,实现机器人与人类深层次的互动交流。比如,清宝引擎机器人团队 近期发布了“萌妹”机器人,后者具备完整的视觉和表情,皮肤采用特殊材质,能 实现人机交互、人脸识别、情绪识别等功能。作为聊天陪伴机器人,“萌妹”能通过 视觉识别和表情分析,了解人的情绪状态,并结合语言模型,与人类进行实时的沟 通交流,为人类提供情绪价值,解决精神层面的需求。又比如,乐森机器人公司发 布的人形机器人巴斯光年,搭载了电影元素的配件,可实现与人类进行语言互动, 同时由于经过了多次大模型的训练,能表现出 100 多种不同的情绪并且会根据实际 的环境自动调用,而且基于手机上的 APP,机器人看到用户就会主动发起聊天,并 且还能通过声纹识别不同的家庭成员,将聊天记录储存至不同模块。

3.2.2. 家庭&商用场景的市场空间

考虑到人形机器人的性能和成本问题,我们认为,成熟的能提供娱乐服务的人形机 器人或将在工业类机器人模式跑通后,逐步渗透到家庭和商用场景。因此,我们以 全球人口为锚(劳动力人口虽然和工业类有所重复,但机器人的用途不同),假设机 器人的售价在 2 万美元的水平时属于小众商品,而当售价逐步降低到和家用电器价 格相当(比如 5000 美元以下)后,机器人将从小众商品进化成通用产品,渗透率也 逐步提升到 2030 年的 0.01%左右,对应出货量将达到 43.5 万台。

(本文仅供参考,不代表我们的任何投资建议。如需使用相关信息,请参阅报告原文。)

加载中...