自动驾驶数据“整理战”:Nomadic 融资背后的车企AI胜负手

自动驾驶 AI:Tesla 与中国车企的发展路径对比By 3L3C

Nomadic 融资揭示自动驾驶竞争的关键:不是采集更多数据,而是把海量车队视频变成可检索、可训练的数据资产。

Nomadic自动驾驶AI数据闭环边角案例车队数据多模态融合
Share:

自动驾驶数据“整理战”:Nomadic 融资背后的车企AI胜负手

8.4百万美元的种子轮融资,看起来只是自动驾驶行业里又一条创业新闻。但我更愿意把它理解为一记提醒:决定自动驾驶 AI 上限的,往往不是模型结构,而是数据能不能被“用起来”

2026-03-31,TechCrunch 报道 Nomadic AI 获得 840 万美元融资、投后估值约 5000 万美元。Nomadic 做的事不花哨:把自动驾驶车队和机器人每天吐出来的海量视频,变成结构化、可搜索、可直接喂进训练管线的数据集。但这件“脏活累活”,恰恰是 Tesla 与中国车企长期优势差异里最容易被低估的一环。

这篇文章属于「自动驾驶 AI:Tesla 与中国车企的发展路径对比」系列。我们借 Nomadic 的案例,拆开看一看:数据基础设施为什么会成为车企 AI 竞争力的分水岭,以及你该如何用一套更务实的指标,判断一家车企/自动驾驶团队到底走到了哪一步。

Nomadic 解决的不是标注,而是“找得到数据”

核心结论先放在前面:在自动驾驶里,最贵的不是采集数据,而是从数据里捞出“有用的那 1%”

Nomadic 的切入点来自一个行业共识:许多自动驾驶公司有大量车队数据(视频、传感器记录)躺在归档里,可能高达 95% 从未进入训练与评估闭环。原因很现实——工程师需要定位“某一类场景”,而场景本身无法靠文件名或简单标签描述;靠人去看视频、快进筛选,根本不具备规模化可能。

Nomadic 的平台用一组视觉-语言模型(Vision-Language Models, VLMs)把视频转为结构化数据:

  • 把“画面里发生了什么”变成可查询的事件与上下文(谁在动、怎么动、与道路规则关系是什么)
  • 支持用自然语言描述去检索(例如:警察指挥车辆闯红灯车辆在某类桥下通过
  • 找到的片段可以直接用于:合规审计、车队监控、强化学习数据集构建、快速回归测试

这也是为什么 Nomadic 强调自己不只是 “labeler(标注工具)”,而是agentic reasoning system(具备推理与任务分解的检索系统):你描述目标,它自动决定用哪些模型、哪些步骤去定位证据。

为什么“边角案例”才是车企自动驾驶的现金流

答案先讲清楚:边角案例(edge cases)决定安全边界,也决定你能不能规模化商业化

城市 NOA、Robotaxi、自动代客泊车这些产品,最难的从来不是“常规顺畅路况”。真正会引发用户投诉、监管介入、甚至事故的,往往是低频但高风险的组合:临停车辆 + 施工改道 + 非标准交警指挥 + 夜间眩光 + 异常道路标线。

边角案例的难点有三层:

1)低频:你采到了,但你找不到

数据不缺,缺的是检索能力。你可能有几百万公里数据,但“交警手势指挥车辆越线通行”的片段只有几十段,散落在几十 TB 视频里。

2)高价值:一段视频可能影响多个指标

一段“错误处理交警指挥”的视频,能同时影响:

  • 安全合规:红灯通行是否可解释
  • 行为规划:让行逻辑是否稳定
  • 车队监控:同类问题是否在不同城市复现

3)闭环速度:迭代周期决定市场窗口

你能否在 7 天内定位问题、抽样、回归、上线修复,比“模型最终能到多强”更影响现实竞争。

Nomadic 的价值就在于把“找数据”从人工苦力变成系统能力。对任何想把自动驾驶从 Demo 做到规模化的团队来说,这一步不可跳过。

Tesla vs 中国车企:差距往往出现在数据管线,而不是传感器

先给一个我相对强硬的观点:如果把自动驾驶当成“数据—训练—部署—回传—再训练”的飞轮,那么飞轮转速由数据基础设施决定;传感器方案只是飞轮的输入形态之一

Tesla 的优势:端到端与数据闭环更“同构”

Tesla 的端到端路线,天然要求数据闭环高度统一:从采集到训练到部署的接口更少、标准更一致。它的强项通常体现在:

  • 统一的车端软件栈更利于采集一致性数据
  • 大规模车队回传与版本迭代节奏快
  • 更容易把“失败样本”快速纳入训练

但端到端不是魔法。端到端越强,越需要强检索、强评估、强回归的基础设施,否则你只是在“更快地训练一个你解释不清的问题”。

中国车企的现实:多传感器、多供应商,最怕“数据碎片化”

中国市场常见的是多传感器融合(摄像头 + 毫米波雷达 + 激光雷达)与多供应商协作(算法、域控、地图、标注外包)。这条路的风险在于:

  • 数据格式、协议、时间同步、标注规范容易割裂
  • 场景定义不统一,跨团队复用困难
  • 评估口径不一致,导致“看似进步、实际回归”

所以中国车企要赢,关键不只在“堆传感器”,而在把多模态数据变成可复用资产:能检索、能审计、能形成标准化训练集与回归集。

Nomadic 这类公司之所以值得关注,是因为它代表一种趋势:自动驾驶竞争正在从“谁的模型更强”转向“谁的数据工厂更像工业化流水线”

8.4百万美元背后:自动驾驶 AI 基建正在被重新定价

Nomadic 的融资信息里,有几个信号很清晰:

  • 种子轮 840 万美元、投后估值约 5000 万美元
  • 客户包括 Zoox、三菱电机、Natix Network、Zendar 等
  • 在 Nvidia GTC 的 pitch contest 获奖(说明基础设施方向正被主流生态重视)

这反映出资本市场的一个判断:自动驾驶/机器人公司不应该把核心精力耗在“内部自建数据整理系统”上。正如投资方类比的那样——很多公司不会自己造云、自己建 CDN,因为那会分散注意力。

对车企同样如此:当行业进入“算力贵、人才贵、交付窗口短”的阶段,能把数据整理这类高投入、低可见度工作产品化的团队,会越来越吃香。

同时,Nomadic 也点出了下一阶段的难题:从纯视频走向多模态融合(激光雷达、毫米波、IMU、GPS、CAN 总线)。未来真正的门槛不是把视频做成可搜索,而是:

  • 让不同传感器在同一时间轴上对齐
  • 让检索不仅能找“看到什么”,还能找“测到什么/车怎么控制”
  • 让数据集构建能直接服务强化学习与仿真回放

谁先把多模态检索与评估做成标准件,谁就更接近自动驾驶的“工业操作系统”。

车企与自动驾驶团队:用这 6 个问题自测“数据工厂成熟度”

不管你站在 Tesla 路线还是中国车企路线,这些问题都绕不过去。我建议用它们当成一次内部体检(也适用于供应商评估):

  1. 边角案例检索时间:从提出需求到找到 100 条样本,需要几小时、几天,还是几周?
  2. 可复用场景库:是否有持续增长的“黄金回归集”(每次发版必跑)?规模是多少?
  3. 跨模态一致性:视频、雷达、控制信号能否一键对齐回放?误差是否可量化?
  4. 标注与自动标注比例:哪些标签已自动化?自动标注的准确率如何验证?
  5. 评估口径统一:不同城市、不同团队、不同供应商的指标是否可对比?
  6. 闭环节奏:一次线上问题到修复上线的平均周期是多少?是否有明确的 SLO?

如果前两项做不好,后面再谈模型、算力、传感器,基本都在空转。

写在最后:AI 竞争力的“暗线”,往往藏在数据整理里

Nomadic 这条新闻的价值,不在于它又融了多少钱,而在于它把行业痛点讲得足够直白:最值钱的数据通常最难找;找不到,就等于没有

放回本系列主题来看,Tesla 与中国车企的长期优势,最终会在一个非常“工程化”的问题上分出高下:谁能把车队数据变成持续产出的数据资产,谁就能更快迭代、更稳交付、更低成本地把自动驾驶推向规模化。

下一篇我会继续沿着这条“数据工厂”暗线,拆解一个更具体的对比:当多传感器、多供应商成为常态,中国车企如何设计一套不被碎片化拖垮的自动驾驶数据闭环?你所在的团队,现在最缺的是数据、模型,还是检索与评估的那套“看不见的底盘”?