李想重画具身智能

市场资讯 05.20 21:17

（来源：远川科技评论）

在成立的十一年中，理想汽车最擅长也最声名在外的能力，是把复杂技术与家庭的出行需求对齐。

增程不是一套非主流动力架构，而是“没有里程焦虑”；大型SUV不是一组车身尺寸，而是“一家人坐得舒服”；冰箱、彩电、大沙发不是配置堆叠，而是让一辆车成为自在的移动空间的必需品。

这套方法曾经让理想从一堆更先锋、更激进、更性感的技术路线中，找到了一个最容易商业闭环的入口。别人忙着证明自己更像未来，理想先回答了一个更朴素的问题：今天的用户到底愿意为什么买单。

但到了2026年，理想已经不再满足于回答“什么是一辆更好的家庭车”，而是走向了一个更大的问题：当AI从屏幕走向物理世界，一辆车在未来到底应该变成什么？

理想最新的回答是，造一个披着汽车外衣，能感知、思考、行动、反馈的硅基生命体。

过去，车的终点是把人从A点送到B点；现在，车被放进了更长的演化链条里：先成为硅基司机，再通向硅基保姆，最终演化出具身智能时代的通用机器人。

这也是李想最近提出“自动驾驶是具身智能的上半场，通用人形机器人是具身智能的下半场”行业观点的真正背景。

这句话表面上是在定义一个新赛道，实际上是在用李想的方式，重新定义理想自己。

具身智能的分野

2024年的Chatbot，2025年的视频生成大模型，以及2026年开年的龙虾热，一次又一次地震撼着碳基生命：

仅仅活在数字空间里，AI就已经带来了可观的生产力供给提升，如果走向物理世界，它会创造多大价值？

物理AI，现在通常被称为具身智能。特斯拉带头，自2022年将人形机器人从实验室叙事，推成了资本市场与公众舆论的焦点后，科技大厂相继下场，创业公司一拥而上。

而过去两年，在经历了高强度的机器人跳舞、机器人马拉松、机器人进工厂运动后，公众几乎已经把具身智能和人形机器人画上了等号，更油然而生出一种期待：

机器人今年都能跳托马斯回旋了，明年帮我做家务岂不是手拿把掐？

但实际情况是，眼下的人形机器人受限于数据、算法、硬件、产品质量体系等各个维度的难题，叠好一件衣服都成问题，进度约等于2015年的电动车。

反倒是今天带有高阶智能驾驶的汽车，已经能够解读人类模糊的语音指令，在几十公里的距离上无需人类接管，把人送到目的地。

显然，同样是带有大脑、眼睛与运动机构的智能设备，不似人形的自动驾驶汽车，如今比人形机器人更能代表具身智能：实际落地应用规模更大、供应链成熟度更高、离商业闭环更近。

李想的具身智能上下半场论

当数不清的科技大厂与创业公司入局打造人形机器人之时，一些掌握自动驾驶技术的车企，已经攥着半张直通具身智能决赛圈的门票：

从技术来看，带有自动驾驶能力的智能汽车本就是一种广义的机器人，两者技术栈高度同源。

这不仅意味着车企为自动驾驶构建的感知、规划、交互、运动能力可迁移至其他形态机器人，也意味着芯片、传感器、能源等硬件体系，以及数据、基座模型、云端算力等基础设施资产，也可以被批量复用。

从商业维度来考虑，人形机器人在规模化量产前，还会经历长时间、高强度的研发阶段，年营收千亿的车企，有现金流扛起每年上百亿的研发支出。

同时，车企的生产工厂与销售门店，天然为机器人早期落地提供了冷启动的场景；车企积累的C端用户，则会是机器人大规模商业化时的有生力量。

此外，车企在汽车业务中锤炼的产品定义能力、生产制造管理体系，同样是大规模制造机器人时，需要点出的前置科技树。

李想提出的具身智能上下半场论，言外之意是，一家具备自动驾驶研发能力的车企，每卖出一辆智能汽车，不只是挣得几十万营收，更是铺下了一块通往具身智能终局的路基。

节奏，被忽视的赛点

在科技商业史中，一个屡见不鲜的现象是，最早投入一项新技术的企业往往摘不到最大的果实。

因为在“早半步是先驱、早一步是先烈"的泛科技产业中，企业看错方向固然危险，但更常见的死法是看对了方向，却踏错了节奏。其表象是快或慢，但更底层是技术、成本、场景和用户预期之间，是否达成了匹配。

技术太早，产品就只能停留在演示；成本太高，商业闭环就无法成立；场景框得太大，稳定性就会被真实世界反复拷打；预期拉得太高，用户信任则会在一次次落差中被消耗。

具身智能尤其是人形机器人，并没有吸取前车之鉴，各要素的错配仍在放大。

原因在于，当看不清未来时，在害怕错过的情绪驱使下，社会资源会非理性地往人形机器人过度富集，也将对其期望推向巅峰。而一旦发现不能快速落地，随之而来的就是“绝望之谷”。

一家企业如果对此没有前瞻判断，同周期随波逐流，结果是浪费大量资源和机遇，更坏的结果将是退出舞台。

这也是为何李想会在定义具身智能上下半场的同时，以5年为刻度，将其划分为六个阶段。

其中自动驾驶这个上半场分为：2018-2023年为L2辅助驾驶阶段；2023年至2028年，L3自动驾驶阶段；2028年至2033年，是L4无人驾驶阶段。

到下半场，通用人形机器人的节奏则是：2030年至2035年，具备相当于6岁儿童的泛化能力；2035年至2040年，达到12岁水平；2040年到AGI实现前后，具备接近18岁成人的泛化能力。

本质上，这是李想在多次创业的经验积累上，吸收大量研发、业务、供应链一手信息，为具身智能画出的成熟度坐标系与关键技术图谱。

它把具身智能从一步到位的效果演示、终局想象，拆成了具体且循序渐进的六级阶梯。

对理想公司而言，它类似于“五年计划”，指引理想核心技术、产品与组织的变阵节奏。而在行业中，当李想将这套坐标系“开源”，就像过去几年发生的，它大概率会被集体学习，随后被组织为新的共识。

2020年之前，当新能源汽车市场绝大多数资源投向插混与纯电时，理想选择押注增程与家庭旗舰SUV，随后被行业竞相效仿，最终促成了一个千亿规模市场的诞生。

把握节奏，找到阶段性最容易实现商业闭环的入口，一直是李想创业以来的强项。只是这一次，李想想用它撬动的，是万亿级的具身智能市场。

用造人的方式造车

在具身智能上下半场的分野中，2026年是一个临近中场的年份。

一边，L3自动驾驶的商业化呼之欲出，L4无人驾驶正在加速验证可行性；另一边，人形机器人虽然仍在早期，却已经开始在部分细分场景中努力自证价值——上半场还没有结束，下半场已经在热身。

对一家有雄心的车企来说，此时最重要的问题，是由内而外，从组织、技术到产品，都统一到新的语境与目标下：

在能力上，要能横跨具身智能的上下半场；造车的目标，也从“造一辆更聪明的车”，变成了“造一个能够感知、思考、行动、反馈的硅基生命体”。

这也是理想今年一月重构研发体系的原因。

过去汽车研发的组织方式，大多围绕软硬件功能划分：硬件归硬件，软件归软件，智能驾驶归智能驾驶，座舱归座舱。这套方法适合造传统汽车，甚至也适合造一辆初级智能汽车，但到了具身智能阶段，它开始显得不够用了。

因为新的技术命题，已经不再是给一辆车增加几个智能功能，而是让一辆车愈发逼近生命体：它要有心脏提供算力，有眼睛理解世界，有大脑做出判断，有手脚完成动作，还要有神经系统把各个器官连接起来。

如果产品正在变成一个“人”，组织还停留在按传统零件划分，就会出现错位。

理想的做法，是用"造人"的方式重构组织。研发团队不再简单按软硬件切块，而是围绕数字人与硅基人的能力方划分为Infra团队、基座模型团队、软件本体团队、硬件本体团队和评估团队。

其中Infra提供算力基础设施与数据工程，类似心脏和能量系统；基座模型负责多模态预训练与后训练，类似大脑；软件本体负责Agent、工具链、记忆与上下文工程，承担执行与交互；硬件本体负责芯片、传感器和机器人硬件，构建物理身体；评估团队则像免疫系统，独立判断软硬件本体的工作质量。

这套组织调整的意义，是让理想第一次把汽车、Agent和机器人放进了同一套研发语言里。

五月发布的全新理想L9 Livis，则是这套语言在产品端的第一次集中呈现，也是理想第一次明确用造机器人的思路造一辆车：

心脏是两枚自研的马赫M100芯片，用2560 TOPS的有效算力，保障大脑和眼睛的敏捷运转。

眼睛是从2D ViT到3D ViT的感知算法升级，让车对世界的理解，从二维提升到充分理解距离、速度、遮挡和运动关系的三维空间，真正像人一样看世界，从而为L3乃至L4自动驾驶做准备。

大脑是马赫VLA模型。凭借数十亿参数模型中浓缩的知识，它相当于听懂话、会看路、懂开车的专职司机。

手脚则是“完全体”线控底盘和800V主动悬架。线控转向、后轮转向、线控机械制动EMB，让模型输出不必再绕过多层机械和控制器链路，而是可以更直接地作用于车辆动作，从而以比人类更快的反应速度执行车辆控制指令。

扮演神经系统的是星环OS。它负责把芯片、模型、感知、控制和应用连接起来，让各个器官不再各自为战，真正组成一个无缝协作的整体。

这些器官不仅仅指向一辆车的核心竞争力，在不远的将来，更是一款机器人得以量产的地基，因此理想采取了全面深度自研的策略。

但理想又并非为了自研而自研。正如早期智人的眼、脑、手脚、脊椎协同进化，才产生了地球上最聪明的物种，同样，让机器人的器官在统一意志下协同研发，才能把具身智能推向真正的智能，让看得见、摸得着，让能够帮人做事的物理AI尽早走向用户。

从这个角度看，L9 Livis是理想具身智能战略的入口，也是一个接口。

它一头连接自动驾驶汽车，一头连接未来通用人形机器人；一头承接理想过去十年在汽车上的工程积累，一头指向未来十年“硅基司机”和“硅基保姆”的产品想象。

理想仍然在造车，它正在尝试用造人的方式，重新定义汽车产品的未来。