人工智能在机器人产业•2026年4月2日•By 3L3C

星海图融资近20亿元背后，是VLA与世界模型推动具身智能走向规模化。本文拆解其对智能座舱与汽车软件体验的现实启发。

星海图具身智能VLA世界模型智能座舱汽车用户体验

星海图融资近20亿：具身智能如何走向汽车软件与体验

2026-04-02，具身智能公司星海图宣布完成 B+ 轮融资近人民币 20 亿元，投后估值超过 200 亿元。如果你觉得这只是“机器人圈又一笔大钱”，那你可能低估了它对汽车软件、智能座舱与自动驾驶的外溢价值。

我更愿意把这类融资看成一个信号：竞争焦点正在从“能不能做出一台机器人/一套智驾”转向“数据 + 模型 + 系统能不能形成闭环”。而具身智能里正在加速成熟的 VLA（视觉-语言-动作）模型与世界模型，很可能会成为下一代智能汽车体验的底层能力之一。

一句话观点：车会越来越像机器人，机器人会越来越像车——决定体验上限的，都是同一套“感知-理解-决策-执行”软件栈。

这笔融资真正说明了什么：资本在押注“可规模化的具身 AI”

星海图本轮投资方包括 Walden International、蓝思科技、硅基投资、时代伯乐、中航基金，以及中金资本、普华资本、弘泰基金等。公开信息显示：

B+ 轮融资规模：近 20 亿元人民币
累计融资：近 50 亿元人民币
投后估值：超过 200 亿元人民币
此前 2026-02 的 B 轮融资约 10 亿元人民币，估值已超 100 亿元人民币

短短两个月估值与融资规模快速抬升，通常意味着两件事同时成立：

行业共识更清晰了：具身智能不再是“实验室炫技”，而是可以进入工业场景、产生订单与数据的工程体系。
可复制路径更明确了：从单点 demo 到千台交付、再到“万台级部署”，每一步都需要模型能力、数据供给、系统可靠性同步提升。

对汽车行业来说，这种路径并不陌生：智能座舱从“语音能用”到“多模态助手好用”，智驾从“能跑”到“敢放手”，也都经历了同样的闭环。

星海图在做什么：VLA + 世界模型 + 真实世界数据

星海图对外披露的技术路线很明确：一手抓 VLA 模型，一手抓 世界模型（World Model），同时强调真实世界数据采集。

VLA 模型：把“看得见”变成“做得到”

VLA（Vision-Language-Action）可以简单理解为：模型不仅能识别画面、理解指令，还要能输出可执行的动作序列。

在机器人里，这对应“拿起、抓取、搬运、装箱”等动作策略；在汽车里，它对应更广的交互与控制：

座舱：看懂你指向的按钮/屏幕区域，理解“把空调调到舒服点”，并做出一串可验证的操作
车外：识别车位、地锁、充电枪位置，结合语义指令完成泊车、充电等任务
运营与服务：自动完成车队检查、取送车、整备流程（这在共享出行与车队运营中非常现实）

关键不在“能听懂”，而在“能闭环执行”。 VLA 把 AI 从“对话层”往“控制层”推进，这也是为什么它会与汽车软件产生交集。

世界模型：让系统在行动前先“脑内预演”

星海图提到其世界模型相关成果（如 Fast-WAM）。世界模型的价值是：用一个可学习的环境表示，去预测“我这么做会发生什么”。

这对自动驾驶和车端智能同样重要：

自动驾驶的规划本质就是反复“模拟-评估-选择”
复杂交互（如窄路会车、临停开门、行人突然变向）需要更强的未来预测与多种可能性评估

现实里，车端算力、时延、安全约束更苛刻，所以世界模型不一定以同样形态落地，但思路一致：用可泛化的预测能力替代手写规则的堆叠。

数据策略：真实世界数据决定上限

星海图强调真实世界数据采集，并推出开放数据集 GOD，计划在 2026 年继续扩充规模。与此同时，其产品已经在搬运、抓取、包装等场景部署，订单达到“千台级”，并计划 2026 年冲击“万台级部署”。

这对汽车从业者的启发很直接：

不是所有数据都有用，关键是与任务强绑定的高质量闭环数据
“开源模型”只是起点，真正难的是数据生产体系与标注/回放/仿真管线
规模部署本身就是数据发动机：设备越多，边界样本越多，模型迭代越快

从机器人到智能车：同一套 AI 能力，不同的产品表达

具身智能与智能汽车的共同点，是都要把 AI 放进一个“会动、会撞、会出事故”的系统里。区别在于：汽车的软件体验更强依赖安全、合规、以及人与车的长期关系。

智能座舱：下一阶段是“多模态助手”而不是“更会聊天”

很多车企把座舱 AI 做成“更像人”的语音助手，但用户评价往往两极分化：会聊天不等于好用。

具身智能路线给了一个更务实的方向：

把助手定位为“任务执行器”：导航、空调、媒体、车控、日程、充电等
通过 VLA 引入指向、注视、手势、屏幕理解等多模态输入
对每次执行结果做可验证反馈：成功/失败原因、下一步建议

一句话：交互体验的天花板在“能不能把事办成”。

自动驾驶与泊车：世界模型思路会越来越常见

当智驾从高速/快速路扩展到城区、从“规整车位”扩展到“极窄车位 + 非标地锁 + 行人穿行”，系统需要更强的场景预测能力。

世界模型带来的变化是：

更少依赖为每个角落写规则
更强的泛化：遇到相似但不相同的场景也能合理行动
更自然的人机共驾体验：系统会解释“为什么这么走”，而不是突然一脚刹车

当然，车规落地仍要面对功能安全（ISO 26262）、预期功能安全（SOTIF）等约束，但趋势很明确：模型能力将成为性能与体验的核心变量。

车企与供应链：新的分工可能是“模型平台化”

星海图开源了多个模型（G0、G0 Plus、G0 Tiny）。开源在汽车行业的意义，不是“直接拿来上车”，而是：

让开发者更快验证多模态交互原型
让供应链围绕同一底座做适配与工具
形成生态共识，降低重复造轮子

我见过不少团队的误区是：把“上大模型”当作目标。更有效的做法是：把模型当作平台能力，围绕平台去做工具链、数据闭环与 A/B 体系。

给汽车软件团队的 4 个可执行建议（少走弯路）

如果你正在做智能座舱、车控助手、泊车/低速智驾，具身智能的这波进展可以直接转化成行动清单：

先定“任务闭环”，再选模型结构
- 例如“语音调温度”不是任务，任务应是“在 2 秒内把体感调到目标区间，并确认用户满意”。
把数据采集当产品的一部分设计
- 每次失败都要能回传：输入（语音/图像/状态）、模型输出、系统执行、用户纠正动作。
用小模型做端侧，用大模型做云侧评审
- 端侧负责低时延执行；云侧负责离线复盘、生成训练样本、做策略评审。
体验指标要“可量化”
- 别只看唤醒率、ASR 准确率；要看任务成功率、平均完成时间、纠错次数、人工接管率等。

可被引用的一句话：没有闭环指标的 AI 体验优化，本质是在做感觉工程。

常见问题：这类机器人公司会直接进入汽车行业吗？

更现实的路径不是“机器人公司造车”，而是能力外溢：

模型：多模态理解、动作规划、世界模型思想
数据：真实世界采集方法论、仿真与回放体系
工程：把模型变成可靠系统的工具链（部署、监控、灰度、回滚）

汽车行业会继续由车企与一级供应商主导，但“谁掌握数据与模型迭代速度”，将决定谁能把体验做得更细、更稳定。

这一轮具身智能热潮，对“汽车用户体验”意味着什么

星海图融资近 20 亿元、估值超 200 亿元，表面是资本故事，底层是产业路线切换：模型能力正在成为机器人性能的中心，也会成为智能汽车体验的中心。

作为《人工智能在机器人产业》系列的一篇，我更关注它对车端产品的启发：别把 AI 只放在“会说话”的层面。把 AI 变成“会做事”的系统，用户才会把它当能力，而不是当噱头。

接下来一年很值得观察：当具身智能公司把部署从千台推向万台，它们会产出怎样的数据闭环与工程工具？这些能力又会以什么形式进入智能座舱与低速自动驾驶？