具身智能“抢人战”升级:优必选高薪背后的机器人与车载AI启示

人工智能在机器人产业By 3L3C

优必选开出最高1.24亿元年薪招具身智能首席科学家,背后是VLA基础模型与规模部署之争。本文拆解其数据,并给出对车载AI与UX落地的启示。

具身智能人形机器人VLA工业机器人智能座舱汽车软件与UX
Share:

具身智能“抢人战”升级:优必选高薪背后的机器人与车载AI启示

2026-04-03 这条消息很“硬”:优必选(UBTECH)开出年薪 1500万—1.24亿元人民币(约 210万—1700万美元)招聘“具身智能首席科学家”,而且不是噱头——它的全尺寸人形机器人在 2025 年已经卖出 1079 台,贡献收入 8.21 亿元人民币,占总营收 41.1%,直接成为最大业务。

我更关注的不是“天价薪酬”本身,而是它暴露了一个行业事实:AI 的价值重心正在从“会说话的模型”,转向“会动手的系统”。当 AI 真正接管感知、决策与执行,它不再只是软件功能点,而是产品体验(UX)的“总开关”。这点,在汽车软件与用户体验里同样成立。

这篇文章属于「人工智能在机器人产业」系列。我们用优必选的案例,拆解三个问题:为什么具身智能人才这么贵、VLA(视觉-语言-动作)模型到底改变了什么、以及这股趋势会如何反向影响“车载 AI + 软件体验”的打法。

优必选开出亿元年薪,核心不是炫耀,而是“系统成本”在转移

结论先说:具身智能首席科学家的价值,来自“把模型变成可规模部署的产品能力”。 这类岗位要解决的不只是算法,而是从数据、仿真、训练、部署到安全与成本的一整条链路。

根据 2026-04-03 披露的信息,优必选在 2025 年实现营收 20.01 亿元人民币(同比 +53.3%),毛利率提升到 37.7%,净亏损收窄至 7.9 亿元人民币,期末现金及等价物约 48.88 亿元人民币。这些数字意味着两件事:

  1. 人形机器人正在从“演示产品”变成“能卖货的品类”。只要能持续交付,人才投入会被视为“产能投资”。
  2. 基础模型与系统能力会成为主要资本开支方向。硬件可以外包、代工、迭代,但“脑子”一旦形成壁垒,就能吃到更长的复利。

为什么具身智能比大模型应用更“烧人”?

因为它要求跨域能力叠加:

  • 感知:复杂光照、反光材质、遮挡、运动模糊下的鲁棒视觉
  • 理解:语言指令和环境语义对齐(例如“把左边那箱易碎品放到上层货架”)
  • 控制:双臂/多关节运动学、稳定行走、抓取与力控
  • 工程化:算力预算、实时性、容错、安全策略、量产一致性

“能跑 demo”的人不少,但“能让 1000 台在工厂里稳定干活”的人极少。这就是薪酬差距的来源。

VLA(视觉-语言-动作)模型:把“指令”变成“动作”的体验操作系统

一句话解释 VLA:VLA 是让机器人把看到的、听到的、要做的统一成一个可执行策略的基础模型。 它不像传统机器人那样靠大量手工规则编排,而更接近“给意图,自己想办法完成”。

优必选招聘信息提到的重点之一就是打造“基础机器人模型”,包括 VLA 系统。这会带来三个体验层面的变化:

1)交互从“点菜单”变成“说人话”

过去工业机器人或仓储机器人更像 PLC:你给固定流程,它重复执行。VLA 让交互更接近自然语言,用户体验会从“操作机器”转向“描述目标”。

这跟车载语音助手的进化路径高度一致:

  • 第一阶段:固定指令(“打开空调”)
  • 第二阶段:上下文(“有点冷”)
  • 第三阶段:多模态+任务闭环(看见你在高速拥堵,自动建议并执行“降噪+跟车距离+路线重规划”)

交互方式的变化,会倒逼软件架构重做。

2)体验标准从“能用”变成“可信赖”

机器人进入工厂与物流场景,最怕的是:

  • 抓取失败导致掉落、损坏
  • 路径规划误判造成碰撞
  • 与人协作时安全边界不清

所以 VLA 不是“多会聊天”,而是“在不确定环境里依然可靠”。对应到汽车:辅助驾驶、座舱智能、自动泊车也一样,用户最终关心的不是炫技,而是稳定、可预期、可解释

我一直认为:AI 体验的核心 KPI 不是惊喜次数,而是意外次数。

3)可规模部署的关键在“数据闭环”

VLA 的上限由数据决定,而机器人数据比互联网文本难得多:要有动作、力、触觉、失败案例、环境变化。

优必选提到其工业人形机器人 Walker S2 已进入量产并部署到制造与物流场景。量产部署带来的真正价值,是形成高质量数据闭环:

  • 现场采集:真实工况下的“长尾问题”
  • 仿真回放:把失败案例放大成可训练样本
  • OTA/策略迭代:像汽车软件更新一样快速修复与提升

这也是为什么“机器人公司越来越像车企里的软件团队”,而“车企越来越像机器人公司”。

从人形机器人到汽车软件:两条路,最终都在争夺“体验控制权”

直说:优必选的投入逻辑,与特斯拉式“软件优先”路线在本质上是同一件事——用 AI 把产品体验做成平台能力。 区别只在于载体:一个是轮子,一个是腿。

机器人与汽车的共同点:AI 成了“体验中枢”

把二者放在同一张图里,你会发现模块几乎一一对应:

  • 视觉与多传感融合:摄像头/雷达/IMU ↔ 机器人视觉/深度/力传感
  • 规划与控制:路径规划/纵横向控制 ↔ 行走规划/双臂协调
  • 人机交互:语音、多模态座舱 ↔ 语音+手势+环境理解
  • OTA 与数据闭环:车端日志、车队学习 ↔ 现场数据、群体学习

所以,具身智能的竞争,会反过来抬高汽车软件与 UX 的门槛:用户会习惯“能理解意图并完成任务”的系统,而不是“给你十个按钮自己点”。

不同点:车内 UX 的“错误成本”更高

机器人在仓库里掉了箱子,是经济损失;车在道路上误判,是安全风险。因此汽车领域会更强调:

  • 功能边界清晰(什么时候能做、什么时候不能做)
  • 安全冗余与降级策略
  • 合规与隐私(车端数据、语音与视频采集)

也正因如此,汽车厂商如果想把大模型能力做进座舱与辅助驾驶,不能只招“会调模型的人”,更要招懂系统安全与工程落地的人。优必选的“高薪抢人”,其实是在替整个行业打样。

给产品与研发团队的 5 条落地建议:把 AI 变成体验,而不是功能

答案先给:别把 AI 当插件,要当成“体验路径的编排者”。 下面 5 条是我见过最有效、也最容易被忽略的做法,适用于机器人产品,也适用于车载软件与用户体验团队。

  1. 先定义任务闭环,再选模型

    • 不是“上一个多模态大模型”,而是明确:用户一句话后,系统要完成哪 3 步、在哪一步确认、失败如何兜底。
  2. 把“失败”当成核心数据资产

    • 记录失败原因(光照、遮挡、口音、噪声、动作超限),让训练目标对准真实痛点。
  3. 建立实时性预算:每个环节允许多少毫秒

    • 机器人控制与车端交互都怕延迟。把端侧/云侧拆分清楚,避免体验“卡顿感”。
  4. 用可解释反馈提升信任

    • 不要只给结果,给“我正在做什么/为什么这么做/接下来需要你确认什么”。信任来自透明。
  5. 让 OTA 成为产品节奏,而不是救火工具

    • 规划固定的模型与策略迭代周期,建立灰度发布与回滚机制。体验增长靠节奏,不靠临时冲刺。

一句可引用的判断:AI 产品的护城河,不是模型参数,而是“任务闭环 + 数据闭环 + 工程闭环”。

常见追问:高薪首席科学家能解决一切吗?

不能。 首席科学家更像“技术方向盘”,但真正决定交付的是组织系统:数据团队、仿真平台、嵌入式与实时系统、测试验证、安全合规、供应链与现场运维。

优必选之所以能把人形机器人做成最大营收板块,一个很现实的原因是它已经进入量产与部署阶段,有机会把研究转成可复制的工程。对很多还停留在样机阶段的团队来说,盲目追“名人科学家”不如先把:

  • 数据采集与标注规范
  • 仿真与回放平台
  • 端侧算力与功耗预算
  • 现场问题闭环机制

这四件事做扎实。人才来了,才能发挥杠杆。

下一步:具身智能会把“用户体验”推到更高的竞争维度

优必选用 2025 年 1079 台的交付量证明了:人形机器人不再只是展会主角,而是开始进入真实生产系统。它用“天价薪酬”告诉市场:具身智能的核心竞争已经转向基础模型与落地工程的合体能力

对汽车软件与用户体验团队来说,这是一面镜子:当机器人学会在复杂环境里“看懂—理解—执行”,用户也会期待座舱与车辆具备同等的任务完成能力。你提供的不是一堆功能入口,而是一套能把意图变成结果的体验系统。

如果你正在规划车载大模型、智能座舱、或人机协作机器人项目,我建议你回到最朴素的问题:用户想完成的那件事,系统能否稳定地帮他做完,并且让他放心? 这会决定你的产品能走多远。

🇨🇳 具身智能“抢人战”升级:优必选高薪背后的机器人与车载AI启示 - China | 3L3C