具身智能持续火热专家提醒实现周期或需要十年

中国经营报

06.1712:50

关注

本报记者曲忠芳北京报道

6月14日，《中国经营报》记者在中关村国家自主创新示范区展示中心看到，三台来自银河通用的机器人正在“忙碌工作”，吸引了不少观众驻足围观。其中有两台分别接收到“我渴了”“我饿了”的指令，自主导航到货架取出对应的瓶装水、零食并放置到指定位置，另一台则在执行家居收纳的任务。现场一名技术人员告诉记者，机器人本体应用的是北京智源人工智能研究院（以下简称“智源研究院”）的具身智能大模型，基于视觉方案，能够根据用户的指令进行思考、交互并完成抓取任务。

银河通用成立于2023年5月，由智源研究院孵化，投资方除了经纬创投、蓝驰创投等风投机构之外，还有科大讯飞、商汤、美团等知名科技企业。需要指出的是，受AI大模型的带动，具身智能机器人领域自去年中期火热至今，涌现出大量的初创公司。

在同步进行的2024北京智源大会上，具身智能成为热议话题之一，也是智源研究院重点布局的科研攻关方向之一。中国工程院院士、清华大学智能产业研究院院长张亚勤提到，实现通用人工智能（AGI）三个关键领域是信息智能、物理智能和生物智能。信息智能可能五年左右可以实现，比如当下在文本理解与生成层面已经实现，而视频则还需要几年。物理智能或具身智能领域，实现大模型在物理环境中的理解与操作能力，预计要十年；而到生物智能领域，聚焦人体脑机接口、生物科学，实现大模型与生物体联结，则可能需要二十年左右才能实现。

AI大模型与具身智能

“具身智能”，译自英文embodied AI，字面意思是“具有身体的人工智能”。简言之，具身智能就是，让机器人或智能系统像生物一样，通过自己的身体去感知世界、理解世界，并在世界中行动和完成任务的智能技术。一年多来，随着政策、资本、产业、学术界的共同推动，具身智能成为广为人知的热门词汇。

值得一提的是，在大众舆论语境中，具身智能常常会被认知为人形机器人，以此作为其通俗意义的指代称呼。智源研究院院长王仲远提醒道，具身智能不能等同于人形机器人，它代表的是一种智能技术，当具身智能走进物理世界、与不同硬件结合时，形成的硬件有可能是机械手臂、四足或六足机器人、轮式机器人，或者人形机器人，因此二者的范畴是不同的，人形机器人只是可能承载具身智能的一个本体。

AI大模型与具身智能有何关系？为什么能推动具身智能赛道趋于火热，且吸引众多企业的布局与参与？

王仲远解释，多模态大模型能够帮助计算机去感知和理解世界，接下来它能够演化成一个智能体。当数字世界的智能体进入物理世界，即具身智能。智源研究院将具身智能作为未来几年内重点投入科研的重要方向之一，目前在机器人的末端操作、具身大小脑、硬件等方面都取得了一系列突破性的成果。

从智源研究院落地在银河通用机器人本体上的研究成果来看，通过大规模、高质量的仿真系统建设、超过10亿次抓取的数据，训练出通用抓取的模型——抓取是整个机器人最重要的基本操作，在工业级的真机上能够实现95%的成功率。除了抓取技术，大模型给具身智能带来了思考能力的变化，智源研究院研发了两个“专模专用”各司其职的大模型，能够让机器人在失败时去反思、重新规划操作动作，再次尝试。需要说明的是，具身智能机器人在医疗场景也有很大的落地空间。智源研究院联合清华301医院实现了首台智能心脏超智机器人，并在真人身上实现了自主超声扫描，将结果与专业医生扫描的结果进行对比后，准确性、效率与人类医生基本持平，稳定性和舒适性明显高于人类医生。这在当下超声医生人手不足的情况下，对提升超声医疗的普及度具有非常重要的意义。

王仲远指出，具身智能距离真实的应用或者产业化还有比较长的时间，因此需要对具身智能——尤其是人形机器人要保持理性客观地看待，存在非常多需要突破的问题，诸如数据、具身大脑模型、场景应用等，目前各层面数据比较零散。智源研究院将联合清华、北大等高校，以及银河通用、领视智远等初创公司，还有上下游供应链的相关企业，共同搭建具身智能的创新平台，以解决数据模型、场景等方面的问题，推动具身智能技术的发展，这将是下半年和明年智源研究院的重要工作重点。

具身智能还要走很长的路

在2024北京智源大会上，针对当下人形机器人赛道参与者众多、创业项目层出不穷的现象，零一万物CEO、创新工场董事长李开复“泼”了一盆冷水，他透露，目前创新工场投资了约6家无人驾驶公司，却并没有投资任何一家具身智能、人形机器人公司。李开复指出，具身智能是物理世界跟AI的结合，一旦大模型接入物理世界，就需要面临包括安全问题、机器问题、机械问题、故障问题在内的各种问题，难度会增加很多倍。

“当前大模型更适合在虚拟世界服务，如在金融机构中担纲后台、客服等工作，很快会落地产生价值。”李开复表示，对于创业者而言，如果希望短期内技术落地产生价值，做虚拟世界的人工智能容易很多。具身智能是重要的，它可以很好地结合大模型多模态能力，而且一旦实现之后就可以产生数据，形成数据飞轮闭环，有很大的想象空间。但是他也坦言，具身智能要在短期做好，难度很大，必然要走漫长的道路。此外，从投资机构的视角，人形机器人在绝大多数应用场景中可能并不需要，包括波士顿动力在内的许多人形机器人公司的创始人、科学家可能从小热爱科技，希望能复制出一个“人”来，这无可厚非，然而从投资机构的视角，可能会给出一个更加务实理性的判断。

王仲远在接受记者采访时表示，过去一年里，具身智能领域、人形机器人赛道变得非常火热，但从技术发展周期规律来看，无论是具身智能大模型的技术，还是人形机器人，都要能够接受行业未来几年内进入低谷的可能性。智源研究院会持续潜心去研究攻关，直到跨越周期，迎来真正的爆发。“我们坚信智能体会从数字世界进入物理世界，具身智能与世界模型相互促进，最终实现通用人工智能。”

张亚勤从AI安全方面发出了提醒，随着AI能力的不断扩大，AI的安全风险也在扩大，因此现在考虑未来的风险是很重要的。当AGI达到一定能力并被大规模部署，那么可能会有失控的风险。目前AI仍存在可解释性问题，未来机器人数量可能会比人要多，当大模型被用到基础物理设施、金融系统，包括国家安全、军事系统等方面，就可能会有失控的风险。在张亚勤看来，一定要现在开始就把AI治理重视起来。

（编辑：吴清审核：李正豪校对：颜京宁）

具身智能持续火热 专家提醒实现周期或需要十年

中国经营报

具身智能持续火热专家提醒实现周期或需要十年