星海图融资近20亿:具身智能如何走向汽车软件与体验

人工智能在机器人产业By 3L3C

星海图融资近20亿元背后,是VLA与世界模型推动具身智能走向规模化。本文拆解其对智能座舱与汽车软件体验的现实启发。

星海图具身智能VLA世界模型智能座舱汽车用户体验
Share:

星海图融资近20亿:具身智能如何走向汽车软件与体验

2026-04-02,具身智能公司星海图宣布完成 B+ 轮融资近人民币 20 亿元,投后估值超过 200 亿元。如果你觉得这只是“机器人圈又一笔大钱”,那你可能低估了它对汽车软件、智能座舱与自动驾驶的外溢价值。

我更愿意把这类融资看成一个信号:竞争焦点正在从“能不能做出一台机器人/一套智驾”转向“数据 + 模型 + 系统能不能形成闭环”。而具身智能里正在加速成熟的 VLA(视觉-语言-动作)模型世界模型,很可能会成为下一代智能汽车体验的底层能力之一。

一句话观点:车会越来越像机器人,机器人会越来越像车——决定体验上限的,都是同一套“感知-理解-决策-执行”软件栈。

这笔融资真正说明了什么:资本在押注“可规模化的具身 AI”

星海图本轮投资方包括 Walden International、蓝思科技、硅基投资、时代伯乐、中航基金,以及中金资本、普华资本、弘泰基金等。公开信息显示:

  • B+ 轮融资规模:近 20 亿元人民币
  • 累计融资:近 50 亿元人民币
  • 投后估值:超过 200 亿元人民币
  • 此前 2026-02 的 B 轮融资约 10 亿元人民币,估值已超 100 亿元人民币

短短两个月估值与融资规模快速抬升,通常意味着两件事同时成立:

  1. 行业共识更清晰了:具身智能不再是“实验室炫技”,而是可以进入工业场景、产生订单与数据的工程体系。
  2. 可复制路径更明确了:从单点 demo 到千台交付、再到“万台级部署”,每一步都需要模型能力、数据供给、系统可靠性同步提升。

对汽车行业来说,这种路径并不陌生:智能座舱从“语音能用”到“多模态助手好用”,智驾从“能跑”到“敢放手”,也都经历了同样的闭环。

星海图在做什么:VLA + 世界模型 + 真实世界数据

星海图对外披露的技术路线很明确:一手抓 VLA 模型,一手抓 世界模型(World Model),同时强调真实世界数据采集

VLA 模型:把“看得见”变成“做得到”

VLA(Vision-Language-Action)可以简单理解为:模型不仅能识别画面、理解指令,还要能输出可执行的动作序列。

在机器人里,这对应“拿起、抓取、搬运、装箱”等动作策略;在汽车里,它对应更广的交互与控制:

  • 座舱:看懂你指向的按钮/屏幕区域,理解“把空调调到舒服点”,并做出一串可验证的操作
  • 车外:识别车位、地锁、充电枪位置,结合语义指令完成泊车、充电等任务
  • 运营与服务:自动完成车队检查、取送车、整备流程(这在共享出行与车队运营中非常现实)

关键不在“能听懂”,而在“能闭环执行”。 VLA 把 AI 从“对话层”往“控制层”推进,这也是为什么它会与汽车软件产生交集。

世界模型:让系统在行动前先“脑内预演”

星海图提到其世界模型相关成果(如 Fast-WAM)。世界模型的价值是:用一个可学习的环境表示,去预测“我这么做会发生什么”。

这对自动驾驶和车端智能同样重要:

  • 自动驾驶的规划本质就是反复“模拟-评估-选择”
  • 复杂交互(如窄路会车、临停开门、行人突然变向)需要更强的未来预测与多种可能性评估

现实里,车端算力、时延、安全约束更苛刻,所以世界模型不一定以同样形态落地,但思路一致:用可泛化的预测能力替代手写规则的堆叠。

数据策略:真实世界数据决定上限

星海图强调真实世界数据采集,并推出开放数据集 GOD,计划在 2026 年继续扩充规模。与此同时,其产品已经在搬运、抓取、包装等场景部署,订单达到“千台级”,并计划 2026 年冲击“万台级部署”。

这对汽车从业者的启发很直接:

  • 不是所有数据都有用,关键是与任务强绑定的高质量闭环数据
  • “开源模型”只是起点,真正难的是数据生产体系与标注/回放/仿真管线
  • 规模部署本身就是数据发动机:设备越多,边界样本越多,模型迭代越快

从机器人到智能车:同一套 AI 能力,不同的产品表达

具身智能与智能汽车的共同点,是都要把 AI 放进一个“会动、会撞、会出事故”的系统里。区别在于:汽车的软件体验更强依赖安全、合规、以及人与车的长期关系。

智能座舱:下一阶段是“多模态助手”而不是“更会聊天”

很多车企把座舱 AI 做成“更像人”的语音助手,但用户评价往往两极分化:会聊天不等于好用。

具身智能路线给了一个更务实的方向:

  • 把助手定位为“任务执行器”:导航、空调、媒体、车控、日程、充电等
  • 通过 VLA 引入指向、注视、手势、屏幕理解等多模态输入
  • 对每次执行结果做可验证反馈:成功/失败原因、下一步建议

一句话:交互体验的天花板在“能不能把事办成”。

自动驾驶与泊车:世界模型思路会越来越常见

当智驾从高速/快速路扩展到城区、从“规整车位”扩展到“极窄车位 + 非标地锁 + 行人穿行”,系统需要更强的场景预测能力。

世界模型带来的变化是:

  • 更少依赖为每个角落写规则
  • 更强的泛化:遇到相似但不相同的场景也能合理行动
  • 更自然的人机共驾体验:系统会解释“为什么这么走”,而不是突然一脚刹车

当然,车规落地仍要面对功能安全(ISO 26262)、预期功能安全(SOTIF)等约束,但趋势很明确:模型能力将成为性能与体验的核心变量。

车企与供应链:新的分工可能是“模型平台化”

星海图开源了多个模型(G0、G0 Plus、G0 Tiny)。开源在汽车行业的意义,不是“直接拿来上车”,而是:

  • 让开发者更快验证多模态交互原型
  • 让供应链围绕同一底座做适配与工具
  • 形成生态共识,降低重复造轮子

我见过不少团队的误区是:把“上大模型”当作目标。更有效的做法是:把模型当作平台能力,围绕平台去做工具链、数据闭环与 A/B 体系。

给汽车软件团队的 4 个可执行建议(少走弯路)

如果你正在做智能座舱、车控助手、泊车/低速智驾,具身智能的这波进展可以直接转化成行动清单:

  1. 先定“任务闭环”,再选模型结构

    • 例如“语音调温度”不是任务,任务应是“在 2 秒内把体感调到目标区间,并确认用户满意”。
  2. 把数据采集当产品的一部分设计

    • 每次失败都要能回传:输入(语音/图像/状态)、模型输出、系统执行、用户纠正动作。
  3. 用小模型做端侧,用大模型做云侧评审

    • 端侧负责低时延执行;云侧负责离线复盘、生成训练样本、做策略评审。
  4. 体验指标要“可量化”

    • 别只看唤醒率、ASR 准确率;要看任务成功率、平均完成时间、纠错次数、人工接管率等。

可被引用的一句话:没有闭环指标的 AI 体验优化,本质是在做感觉工程。

常见问题:这类机器人公司会直接进入汽车行业吗?

更现实的路径不是“机器人公司造车”,而是能力外溢:

  • 模型:多模态理解、动作规划、世界模型思想
  • 数据:真实世界采集方法论、仿真与回放体系
  • 工程:把模型变成可靠系统的工具链(部署、监控、灰度、回滚)

汽车行业会继续由车企与一级供应商主导,但“谁掌握数据与模型迭代速度”,将决定谁能把体验做得更细、更稳定。

这一轮具身智能热潮,对“汽车用户体验”意味着什么

星海图融资近 20 亿元、估值超 200 亿元,表面是资本故事,底层是产业路线切换:模型能力正在成为机器人性能的中心,也会成为智能汽车体验的中心。

作为《人工智能在机器人产业》系列的一篇,我更关注它对车端产品的启发:别把 AI 只放在“会说话”的层面。把 AI 变成“会做事”的系统,用户才会把它当能力,而不是当噱头。

接下来一年很值得观察:当具身智能公司把部署从千台推向万台,它们会产出怎样的数据闭环与工程工具?这些能力又会以什么形式进入智能座舱与低速自动驾驶?

你更期待 AI 在车里先解决哪件“真麻烦”的事:找车位、充电排队、车内多设备协同,还是售后与保养流程?