优必选开出最高1.24亿元年薪招具身智能首席科学家,背后是VLA基础模型与规模部署之争。本文拆解其数据,并给出对车载AI与UX落地的启示。
具身智能“抢人战”升级:优必选高薪背后的机器人与车载AI启示
2026-04-03 这条消息很“硬”:优必选(UBTECH)开出年薪 1500万—1.24亿元人民币(约 210万—1700万美元)招聘“具身智能首席科学家”,而且不是噱头——它的全尺寸人形机器人在 2025 年已经卖出 1079 台,贡献收入 8.21 亿元人民币,占总营收 41.1%,直接成为最大业务。
我更关注的不是“天价薪酬”本身,而是它暴露了一个行业事实:AI 的价值重心正在从“会说话的模型”,转向“会动手的系统”。当 AI 真正接管感知、决策与执行,它不再只是软件功能点,而是产品体验(UX)的“总开关”。这点,在汽车软件与用户体验里同样成立。
这篇文章属于「人工智能在机器人产业」系列。我们用优必选的案例,拆解三个问题:为什么具身智能人才这么贵、VLA(视觉-语言-动作)模型到底改变了什么、以及这股趋势会如何反向影响“车载 AI + 软件体验”的打法。
优必选开出亿元年薪,核心不是炫耀,而是“系统成本”在转移
结论先说:具身智能首席科学家的价值,来自“把模型变成可规模部署的产品能力”。 这类岗位要解决的不只是算法,而是从数据、仿真、训练、部署到安全与成本的一整条链路。
根据 2026-04-03 披露的信息,优必选在 2025 年实现营收 20.01 亿元人民币(同比 +53.3%),毛利率提升到 37.7%,净亏损收窄至 7.9 亿元人民币,期末现金及等价物约 48.88 亿元人民币。这些数字意味着两件事:
- 人形机器人正在从“演示产品”变成“能卖货的品类”。只要能持续交付,人才投入会被视为“产能投资”。
- 基础模型与系统能力会成为主要资本开支方向。硬件可以外包、代工、迭代,但“脑子”一旦形成壁垒,就能吃到更长的复利。
为什么具身智能比大模型应用更“烧人”?
因为它要求跨域能力叠加:
- 感知:复杂光照、反光材质、遮挡、运动模糊下的鲁棒视觉
- 理解:语言指令和环境语义对齐(例如“把左边那箱易碎品放到上层货架”)
- 控制:双臂/多关节运动学、稳定行走、抓取与力控
- 工程化:算力预算、实时性、容错、安全策略、量产一致性
“能跑 demo”的人不少,但“能让 1000 台在工厂里稳定干活”的人极少。这就是薪酬差距的来源。
VLA(视觉-语言-动作)模型:把“指令”变成“动作”的体验操作系统
一句话解释 VLA:VLA 是让机器人把看到的、听到的、要做的统一成一个可执行策略的基础模型。 它不像传统机器人那样靠大量手工规则编排,而更接近“给意图,自己想办法完成”。
优必选招聘信息提到的重点之一就是打造“基础机器人模型”,包括 VLA 系统。这会带来三个体验层面的变化:
1)交互从“点菜单”变成“说人话”
过去工业机器人或仓储机器人更像 PLC:你给固定流程,它重复执行。VLA 让交互更接近自然语言,用户体验会从“操作机器”转向“描述目标”。
这跟车载语音助手的进化路径高度一致:
- 第一阶段:固定指令(“打开空调”)
- 第二阶段:上下文(“有点冷”)
- 第三阶段:多模态+任务闭环(看见你在高速拥堵,自动建议并执行“降噪+跟车距离+路线重规划”)
交互方式的变化,会倒逼软件架构重做。
2)体验标准从“能用”变成“可信赖”
机器人进入工厂与物流场景,最怕的是:
- 抓取失败导致掉落、损坏
- 路径规划误判造成碰撞
- 与人协作时安全边界不清
所以 VLA 不是“多会聊天”,而是“在不确定环境里依然可靠”。对应到汽车:辅助驾驶、座舱智能、自动泊车也一样,用户最终关心的不是炫技,而是稳定、可预期、可解释。
我一直认为:AI 体验的核心 KPI 不是惊喜次数,而是意外次数。
3)可规模部署的关键在“数据闭环”
VLA 的上限由数据决定,而机器人数据比互联网文本难得多:要有动作、力、触觉、失败案例、环境变化。
优必选提到其工业人形机器人 Walker S2 已进入量产并部署到制造与物流场景。量产部署带来的真正价值,是形成高质量数据闭环:
- 现场采集:真实工况下的“长尾问题”
- 仿真回放:把失败案例放大成可训练样本
- OTA/策略迭代:像汽车软件更新一样快速修复与提升
这也是为什么“机器人公司越来越像车企里的软件团队”,而“车企越来越像机器人公司”。
从人形机器人到汽车软件:两条路,最终都在争夺“体验控制权”
直说:优必选的投入逻辑,与特斯拉式“软件优先”路线在本质上是同一件事——用 AI 把产品体验做成平台能力。 区别只在于载体:一个是轮子,一个是腿。
机器人与汽车的共同点:AI 成了“体验中枢”
把二者放在同一张图里,你会发现模块几乎一一对应:
- 视觉与多传感融合:摄像头/雷达/IMU ↔ 机器人视觉/深度/力传感
- 规划与控制:路径规划/纵横向控制 ↔ 行走规划/双臂协调
- 人机交互:语音、多模态座舱 ↔ 语音+手势+环境理解
- OTA 与数据闭环:车端日志、车队学习 ↔ 现场数据、群体学习
所以,具身智能的竞争,会反过来抬高汽车软件与 UX 的门槛:用户会习惯“能理解意图并完成任务”的系统,而不是“给你十个按钮自己点”。
不同点:车内 UX 的“错误成本”更高
机器人在仓库里掉了箱子,是经济损失;车在道路上误判,是安全风险。因此汽车领域会更强调:
- 功能边界清晰(什么时候能做、什么时候不能做)
- 安全冗余与降级策略
- 合规与隐私(车端数据、语音与视频采集)
也正因如此,汽车厂商如果想把大模型能力做进座舱与辅助驾驶,不能只招“会调模型的人”,更要招懂系统安全与工程落地的人。优必选的“高薪抢人”,其实是在替整个行业打样。
给产品与研发团队的 5 条落地建议:把 AI 变成体验,而不是功能
答案先给:别把 AI 当插件,要当成“体验路径的编排者”。 下面 5 条是我见过最有效、也最容易被忽略的做法,适用于机器人产品,也适用于车载软件与用户体验团队。
-
先定义任务闭环,再选模型
- 不是“上一个多模态大模型”,而是明确:用户一句话后,系统要完成哪 3 步、在哪一步确认、失败如何兜底。
-
把“失败”当成核心数据资产
- 记录失败原因(光照、遮挡、口音、噪声、动作超限),让训练目标对准真实痛点。
-
建立实时性预算:每个环节允许多少毫秒
- 机器人控制与车端交互都怕延迟。把端侧/云侧拆分清楚,避免体验“卡顿感”。
-
用可解释反馈提升信任
- 不要只给结果,给“我正在做什么/为什么这么做/接下来需要你确认什么”。信任来自透明。
-
让 OTA 成为产品节奏,而不是救火工具
- 规划固定的模型与策略迭代周期,建立灰度发布与回滚机制。体验增长靠节奏,不靠临时冲刺。
一句可引用的判断:AI 产品的护城河,不是模型参数,而是“任务闭环 + 数据闭环 + 工程闭环”。
常见追问:高薪首席科学家能解决一切吗?
不能。 首席科学家更像“技术方向盘”,但真正决定交付的是组织系统:数据团队、仿真平台、嵌入式与实时系统、测试验证、安全合规、供应链与现场运维。
优必选之所以能把人形机器人做成最大营收板块,一个很现实的原因是它已经进入量产与部署阶段,有机会把研究转成可复制的工程。对很多还停留在样机阶段的团队来说,盲目追“名人科学家”不如先把:
- 数据采集与标注规范
- 仿真与回放平台
- 端侧算力与功耗预算
- 现场问题闭环机制
这四件事做扎实。人才来了,才能发挥杠杆。
下一步:具身智能会把“用户体验”推到更高的竞争维度
优必选用 2025 年 1079 台的交付量证明了:人形机器人不再只是展会主角,而是开始进入真实生产系统。它用“天价薪酬”告诉市场:具身智能的核心竞争已经转向基础模型与落地工程的合体能力。
对汽车软件与用户体验团队来说,这是一面镜子:当机器人学会在复杂环境里“看懂—理解—执行”,用户也会期待座舱与车辆具备同等的任务完成能力。你提供的不是一堆功能入口,而是一套能把意图变成结果的体验系统。
如果你正在规划车载大模型、智能座舱、或人机协作机器人项目,我建议你回到最朴素的问题:用户想完成的那件事,系统能否稳定地帮他做完,并且让他放心? 这会决定你的产品能走多远。