人工智能在机器人产业•2026年4月3日•By 3L3C

优必选开出最高1.24亿元年薪招具身智能首席科学家，背后是VLA基础模型与规模部署之争。本文拆解其数据，并给出对车载AI与UX落地的启示。

具身智能人形机器人VLA工业机器人智能座舱汽车软件与UX

具身智能“抢人战”升级：优必选高薪背后的机器人与车载AI启示

2026-04-03 这条消息很“硬”：优必选（UBTECH）开出年薪 1500万—1.24亿元人民币（约 210万—1700万美元）招聘“具身智能首席科学家”，而且不是噱头——它的全尺寸人形机器人在 2025 年已经卖出 1079 台，贡献收入 8.21 亿元人民币，占总营收 41.1%，直接成为最大业务。

我更关注的不是“天价薪酬”本身，而是它暴露了一个行业事实：AI 的价值重心正在从“会说话的模型”，转向“会动手的系统”。当 AI 真正接管感知、决策与执行，它不再只是软件功能点，而是产品体验（UX）的“总开关”。这点，在汽车软件与用户体验里同样成立。

这篇文章属于「人工智能在机器人产业」系列。我们用优必选的案例，拆解三个问题：为什么具身智能人才这么贵、VLA（视觉-语言-动作）模型到底改变了什么、以及这股趋势会如何反向影响“车载 AI + 软件体验”的打法。

优必选开出亿元年薪，核心不是炫耀，而是“系统成本”在转移

结论先说：具身智能首席科学家的价值，来自“把模型变成可规模部署的产品能力”。 这类岗位要解决的不只是算法，而是从数据、仿真、训练、部署到安全与成本的一整条链路。

根据 2026-04-03 披露的信息，优必选在 2025 年实现营收 20.01 亿元人民币（同比 +53.3%），毛利率提升到 37.7%，净亏损收窄至 7.9 亿元人民币，期末现金及等价物约 48.88 亿元人民币。这些数字意味着两件事：

人形机器人正在从“演示产品”变成“能卖货的品类”。只要能持续交付，人才投入会被视为“产能投资”。
基础模型与系统能力会成为主要资本开支方向。硬件可以外包、代工、迭代，但“脑子”一旦形成壁垒，就能吃到更长的复利。

为什么具身智能比大模型应用更“烧人”？

因为它要求跨域能力叠加：

感知：复杂光照、反光材质、遮挡、运动模糊下的鲁棒视觉
理解：语言指令和环境语义对齐（例如“把左边那箱易碎品放到上层货架”）
控制：双臂/多关节运动学、稳定行走、抓取与力控
工程化：算力预算、实时性、容错、安全策略、量产一致性

“能跑 demo”的人不少，但“能让 1000 台在工厂里稳定干活”的人极少。这就是薪酬差距的来源。

VLA（视觉-语言-动作）模型：把“指令”变成“动作”的体验操作系统

一句话解释 VLA：VLA 是让机器人把看到的、听到的、要做的统一成一个可执行策略的基础模型。 它不像传统机器人那样靠大量手工规则编排，而更接近“给意图，自己想办法完成”。

优必选招聘信息提到的重点之一就是打造“基础机器人模型”，包括 VLA 系统。这会带来三个体验层面的变化：

1）交互从“点菜单”变成“说人话”

过去工业机器人或仓储机器人更像 PLC：你给固定流程，它重复执行。VLA 让交互更接近自然语言，用户体验会从“操作机器”转向“描述目标”。

这跟车载语音助手的进化路径高度一致：

第一阶段：固定指令（“打开空调”）
第二阶段：上下文（“有点冷”）
第三阶段：多模态+任务闭环（看见你在高速拥堵，自动建议并执行“降噪+跟车距离+路线重规划”）

交互方式的变化，会倒逼软件架构重做。

2）体验标准从“能用”变成“可信赖”

机器人进入工厂与物流场景，最怕的是：

抓取失败导致掉落、损坏
路径规划误判造成碰撞
与人协作时安全边界不清

所以 VLA 不是“多会聊天”，而是“在不确定环境里依然可靠”。对应到汽车：辅助驾驶、座舱智能、自动泊车也一样，用户最终关心的不是炫技，而是稳定、可预期、可解释。

我一直认为：AI 体验的核心 KPI 不是惊喜次数，而是意外次数。

3）可规模部署的关键在“数据闭环”

VLA 的上限由数据决定，而机器人数据比互联网文本难得多：要有动作、力、触觉、失败案例、环境变化。

优必选提到其工业人形机器人 Walker S2 已进入量产并部署到制造与物流场景。量产部署带来的真正价值，是形成高质量数据闭环：

现场采集：真实工况下的“长尾问题”
仿真回放：把失败案例放大成可训练样本
OTA/策略迭代：像汽车软件更新一样快速修复与提升

这也是为什么“机器人公司越来越像车企里的软件团队”，而“车企越来越像机器人公司”。

从人形机器人到汽车软件：两条路，最终都在争夺“体验控制权”

直说：优必选的投入逻辑，与特斯拉式“软件优先”路线在本质上是同一件事——用 AI 把产品体验做成平台能力。 区别只在于载体：一个是轮子，一个是腿。

机器人与汽车的共同点：AI 成了“体验中枢”

把二者放在同一张图里，你会发现模块几乎一一对应：

视觉与多传感融合：摄像头/雷达/IMU ↔ 机器人视觉/深度/力传感
规划与控制：路径规划/纵横向控制 ↔ 行走规划/双臂协调
人机交互：语音、多模态座舱 ↔ 语音+手势+环境理解
OTA 与数据闭环：车端日志、车队学习 ↔ 现场数据、群体学习

所以，具身智能的竞争，会反过来抬高汽车软件与 UX 的门槛：用户会习惯“能理解意图并完成任务”的系统，而不是“给你十个按钮自己点”。

不同点：车内 UX 的“错误成本”更高

机器人在仓库里掉了箱子，是经济损失；车在道路上误判，是安全风险。因此汽车领域会更强调：

功能边界清晰（什么时候能做、什么时候不能做）
安全冗余与降级策略
合规与隐私（车端数据、语音与视频采集）

也正因如此，汽车厂商如果想把大模型能力做进座舱与辅助驾驶，不能只招“会调模型的人”，更要招懂系统安全与工程落地的人。优必选的“高薪抢人”，其实是在替整个行业打样。

给产品与研发团队的 5 条落地建议：把 AI 变成体验，而不是功能

答案先给：别把 AI 当插件，要当成“体验路径的编排者”。 下面 5 条是我见过最有效、也最容易被忽略的做法，适用于机器人产品，也适用于车载软件与用户体验团队。

先定义任务闭环，再选模型
- 不是“上一个多模态大模型”，而是明确：用户一句话后，系统要完成哪 3 步、在哪一步确认、失败如何兜底。
把“失败”当成核心数据资产
- 记录失败原因（光照、遮挡、口音、噪声、动作超限），让训练目标对准真实痛点。
建立实时性预算：每个环节允许多少毫秒
- 机器人控制与车端交互都怕延迟。把端侧/云侧拆分清楚，避免体验“卡顿感”。
用可解释反馈提升信任
- 不要只给结果，给“我正在做什么/为什么这么做/接下来需要你确认什么”。信任来自透明。
让 OTA 成为产品节奏，而不是救火工具
- 规划固定的模型与策略迭代周期，建立灰度发布与回滚机制。体验增长靠节奏，不靠临时冲刺。

一句可引用的判断：AI 产品的护城河，不是模型参数，而是“任务闭环 + 数据闭环 + 工程闭环”。

常见追问：高薪首席科学家能解决一切吗？

不能。 首席科学家更像“技术方向盘”，但真正决定交付的是组织系统：数据团队、仿真平台、嵌入式与实时系统、测试验证、安全合规、供应链与现场运维。

优必选之所以能把人形机器人做成最大营收板块，一个很现实的原因是它已经进入量产与部署阶段，有机会把研究转成可复制的工程。对很多还停留在样机阶段的团队来说，盲目追“名人科学家”不如先把：

数据采集与标注规范
仿真与回放平台
端侧算力与功耗预算
现场问题闭环机制

这四件事做扎实。人才来了，才能发挥杠杆。

下一步：具身智能会把“用户体验”推到更高的竞争维度

优必选用 2025 年 1079 台的交付量证明了：人形机器人不再只是展会主角，而是开始进入真实生产系统。它用“天价薪酬”告诉市场：具身智能的核心竞争已经转向基础模型与落地工程的合体能力。

对汽车软件与用户体验团队来说，这是一面镜子：当机器人学会在复杂环境里“看懂—理解—执行”，用户也会期待座舱与车辆具备同等的任务完成能力。你提供的不是一堆功能入口，而是一套能把意图变成结果的体验系统。

如果你正在规划车载大模型、智能座舱、或人机协作机器人项目，我建议你回到最朴素的问题：用户想完成的那件事，系统能否稳定地帮他做完，并且让他放心？ 这会决定你的产品能走多远。