李想重画具身智能
(来源:远川科技评论)
在成立的十一年中,理想汽车最擅长也最声名在外的能力,是把复杂技术与家庭的出行需求对齐。
增程不是一套非主流动力架构,而是“没有里程焦虑”;大型SUV不是一组车身尺寸,而是“一家人坐得舒服”;冰箱、彩电、大沙发不是配置堆叠,而是让一辆车成为自在的移动空间的必需品。
这套方法曾经让理想从一堆更先锋、更激进、更性感的技术路线中,找到了一个最容易商业闭环的入口。别人忙着证明自己更像未来,理想先回答了一个更朴素的问题:今天的用户到底愿意为什么买单。
但到了2026年,理想已经不再满足于回答“什么是一辆更好的家庭车”,而是走向了一个更大的问题:当AI从屏幕走向物理世界,一辆车在未来到底应该变成什么?
理想最新的回答是,造一个披着汽车外衣,能感知、思考、行动、反馈的硅基生命体。
过去,车的终点是把人从A点送到B点;现在,车被放进了更长的演化链条里:先成为硅基司机,再通向硅基保姆,最终演化出具身智能时代的通用机器人。
这也是李想最近提出“自动驾驶是具身智能的上半场,通用人形机器人是具身智能的下半场”行业观点的真正背景。
这句话表面上是在定义一个新赛道,实际上是在用李想的方式,重新定义理想自己。
具身智能的分野
2024年的Chatbot,2025年的视频生成大模型,以及2026年开年的龙虾热,一次又一次地震撼着碳基生命:
仅仅活在数字空间里,AI就已经带来了可观的生产力供给提升,如果走向物理世界,它会创造多大价值?
物理AI,现在通常被称为具身智能。特斯拉带头,自2022年将人形机器人从实验室叙事,推成了资本市场与公众舆论的焦点后,科技大厂相继下场,创业公司一拥而上。
而过去两年,在经历了高强度的机器人跳舞、机器人马拉松、机器人进工厂运动后,公众几乎已经把具身智能和人形机器人画上了等号,更油然而生出一种期待:
机器人今年都能跳托马斯回旋了,明年帮我做家务岂不是手拿把掐?
但实际情况是,眼下的人形机器人受限于数据、算法、硬件、产品质量体系等各个维度的难题,叠好一件衣服都成问题,进度约等于2015年的电动车。
反倒是今天带有高阶智能驾驶的汽车,已经能够解读人类模糊的语音指令,在几十公里的距离上无需人类接管,把人送到目的地。
显然,同样是带有大脑、眼睛与运动机构的智能设备,不似人形的自动驾驶汽车,如今比人形机器人更能代表具身智能:实际落地应用规模更大、供应链成熟度更高、离商业闭环更近。
李想的具身智能上下半场论
当数不清的科技大厂与创业公司入局打造人形机器人之时,一些掌握自动驾驶技术的车企,已经攥着半张直通具身智能决赛圈的门票:
从技术来看,带有自动驾驶能力的智能汽车本就是一种广义的机器人,两者技术栈高度同源。
这不仅意味着车企为自动驾驶构建的感知、规划、交互、运动能力可迁移至其他形态机器人,也意味着芯片、传感器、能源等硬件体系,以及数据、基座模型、云端算力等基础设施资产,也可以被批量复用。
从商业维度来考虑,人形机器人在规模化量产前,还会经历长时间、高强度的研发阶段,年营收千亿的车企,有现金流扛起每年上百亿的研发支出。
同时,车企的生产工厂与销售门店,天然为机器人早期落地提供了冷启动的场景;车企积累的C端用户,则会是机器人大规模商业化时的有生力量。
此外,车企在汽车业务中锤炼的产品定义能力、生产制造管理体系,同样是大规模制造机器人时,需要点出的前置科技树。
李想提出的具身智能上下半场论,言外之意是,一家具备自动驾驶研发能力的车企,每卖出一辆智能汽车,不只是挣得几十万营收,更是铺下了一块通往具身智能终局的路基。
节奏,被忽视的赛点
在科技商业史中,一个屡见不鲜的现象是,最早投入一项新技术的企业往往摘不到最大的果实。
因为在“早半步是先驱、早一步是先烈"的泛科技产业中,企业看错方向固然危险,但更常见的死法是看对了方向,却踏错了节奏。其表象是快或慢,但更底层是技术、成本、场景和用户预期之间,是否达成了匹配。
技术太早,产品就只能停留在演示;成本太高,商业闭环就无法成立;场景框得太大,稳定性就会被真实世界反复拷打;预期拉得太高,用户信任则会在一次次落差中被消耗。
具身智能尤其是人形机器人,并没有吸取前车之鉴,各要素的错配仍在放大。
原因在于,当看不清未来时,在害怕错过的情绪驱使下,社会资源会非理性地往人形机器人过度富集,也将对其期望推向巅峰。而一旦发现不能快速落地,随之而来的就是“绝望之谷”。
一家企业如果对此没有前瞻判断,同周期随波逐流,结果是浪费大量资源和机遇,更坏的结果将是退出舞台。
这也是为何李想会在定义具身智能上下半场的同时,以5年为刻度,将其划分为六个阶段。
其中自动驾驶这个上半场分为:2018-2023年为L2辅助驾驶阶段;2023年至2028年,L3自动驾驶阶段;2028年至2033年,是L4无人驾驶阶段。
到下半场,通用人形机器人的节奏则是:2030年至2035年,具备相当于6岁儿童的泛化能力;2035年至2040年,达到12岁水平;2040年到AGI实现前后,具备接近18岁成人的泛化能力。
本质上,这是李想在多次创业的经验积累上,吸收大量研发、业务、供应链一手信息,为具身智能画出的成熟度坐标系与关键技术图谱。
它把具身智能从一步到位的效果演示、终局想象,拆成了具体且循序渐进的六级阶梯。
对理想公司而言,它类似于“五年计划”,指引理想核心技术、产品与组织的变阵节奏。而在行业中,当李想将这套坐标系“开源”,就像过去几年发生的,它大概率会被集体学习,随后被组织为新的共识。
2020年之前,当新能源汽车市场绝大多数资源投向插混与纯电时,理想选择押注增程与家庭旗舰SUV,随后被行业竞相效仿,最终促成了一个千亿规模市场的诞生。
把握节奏,找到阶段性最容易实现商业闭环的入口,一直是李想创业以来的强项。只是这一次,李想想用它撬动的,是万亿级的具身智能市场。
用造人的方式造车
在具身智能上下半场的分野中,2026年是一个临近中场的年份。
一边,L3自动驾驶的商业化呼之欲出,L4无人驾驶正在加速验证可行性;另一边,人形机器人虽然仍在早期,却已经开始在部分细分场景中努力自证价值——上半场还没有结束,下半场已经在热身。
对一家有雄心的车企来说,此时最重要的问题,是由内而外,从组织、技术到产 品,都统一到新的语境与目标下:
在能力上,要能横跨具身智能的上下半场;造车的目标,也从“造一辆更聪明的车”,变成了“造一个能够感知、思考、行动、反馈的硅基生命体”。
这也是理想今年一月重构研发体系的原因。
过去汽车研发的组织方式,大多围绕软硬件功能划分:硬件归硬件,软件归软件,智能驾驶归智能驾驶,座舱归座舱。这套方法适合造传统汽车,甚至也适合造一辆初级智能汽车,但到了具身智能阶段,它开始显得不够用了。
因为新的技术命题,已经不再是给一辆车增加几个智能功能,而是让一辆车愈发逼近生命体:它要有心脏提供算力,有眼睛理解世界,有大脑做出判断,有手脚完成动作,还要有神经系统把各个器官连接起来。
如果产品正在变成一个“人”,组织还停留在按传统零件划分,就会出现错位。
理想的做法,是用"造人"的方式重构组织。研发团队不再简单按软硬件切块,而是围绕数字人与硅基人的能力方划分为Infra团队、基座模型团队、软件本体团队、硬件本体团队和评估团队。
其中Infra提供算力基础设施与数据工程,类似心脏和能量系统;基座模型负责多模态预训练与后训练,类似大脑;软件本体负责Agent、工具链、记忆与上下文工程,承担执行与交互;硬件本体负责芯片、传感器和机器人硬件,构建物理身体;评估团队则像免疫系统,独立判断软硬件本体的工作质量。
这套组织调整的意义,是让理想第一次把汽车、Agent和机器人放进了同一套研发语言里。
五月发布的全新理想L9 Livis,则是这套语言在产品端的第一次集中呈现,也是理想第一次明确用造机器人的思路造一辆车:
心脏是两枚自研的马赫M100芯片,用2560 TOPS的有效算力,保障大脑和眼睛的敏捷运转。
眼睛是从2D ViT到3D ViT的感知算法升级,让车对世界的理解,从二维提升到充分理解距离、速度、遮挡和运动关系的三维空间,真正像人一样看世界,从而为L3乃至L4自动驾驶做准备。
大脑是马赫VLA模型。凭借数十亿参数模型中浓缩的知识,它相当于听懂话、会看路、懂开车的专职司机。
手脚则是“完全体”线控底盘和800V主动悬架。线控转向、后轮转向、线控机械制动EMB,让模型输出不必再绕过多层机械和控制器链路,而是可以更直接地作用于车辆动作,从而以比人类更快的反应速度执行车辆控制指令。
扮演神经系统的是星环OS。它负责把芯片、模型、感知、控制和应用连接起来,让各个器官不再各自为战,真正组成一个无缝协作的整体。
这些器官不仅仅指向一辆车的核心竞争力,在不远的将来,更是一款机器人得以量产的地基,因此理想采取了全面深度自研的策略。
但理想又并非为了自研而自研。正如早期智人的眼、脑、手脚、脊椎协同进化,才产生了地球上最聪明的物种,同样,让机器人的器官在统一意志下协同研发,才能把具身智能推向真正的智能,让看得见、摸得着,让能够帮人做事的物理AI尽早走向用户。
从这个角度看,L9 Livis是理想具身智能战略的入口,也是一个接口。
它一头连接自动驾驶汽车,一头连接未来通用人形机器人;一头承接理想过去十年在汽车上的工程积累,一头指向未来十年“硅基司机”和“硅基保姆”的产品想象。
理想仍然在造车,它正在尝试用造人的方式,重新定义汽车产品的未来。