Uber 推出 AV Labs,不再自研 Robotaxi,而是押注真实道路数据与边缘场景闭环。本文用它对照 Tesla 与中国车企路线,讲清数据如何决定自动驾驶与车内体验的上限。

Uber AV Labs 押注“数据而非造车”:Robotaxi 边缘场景才是胜负手
2026-02-03 这周,自动驾驶圈里一个信号很清晰:Uber 重新谈“自动驾驶”,但这次不打算再亲自下场造 Robotaxi 了。它推出了一个叫 AV Labs 的团队,核心目标只有一个——采集、整理并提供真实道路驾驶数据,给它的 Robotaxi 合作伙伴用。
我一直认为,大多数人把自动驾驶的竞争想复杂了:不是谁的宣传片更酷,也不是谁的路线图更宏大,而是谁能把最难、最怪、最稀有的“边缘场景(edge cases)”喂给模型,并持续迭代。Uber 这一步,等于公开承认:在自动驾驶商业化前夜,数据网络效应比“再造一套全栈车”更现实。
放到本系列《自动驾驶 AI:Tesla 与中国车企的发展路径对比》里看,这件事还有更强的对照意义:Tesla 用端到端、海量车队数据闭环强化模型;很多中国车企则在多传感器、多供应商与城市级数据协同里加速落地。Uber 的 AV Labs,像是第三种路径——平台型数据中间层。
Uber 为什么要做 AV Labs:把“平台优势”变成“数据优势”
Uber 做 AV Labs 的关键逻辑是:它掌握的是出行需求与城市道路的高频触点,而不是车辆制造能力。过去 Uber 曾经投入自研自动驾驶,后来调整战略转向与自动驾驶公司合作。现在进一步把筹码押在“数据供给”上,目标很明确:让合作伙伴用更快速度解决边缘场景,从而提高 Robotaxi 的安全性与可用性。
真实道路数据的价值:比仿真更能暴露问题
仿真(simulation)能做很多事,但边缘场景往往来自真实世界的“组合拳”:
- 非标准交通参与者:外卖骑手、三轮车、行人突然折返
- 非典型道路结构:临时施工、导流线模糊、乡镇小路
- 非常规行为:交警手势指挥、车辆逆行绕行、队列插队
- 环境干扰:眩光、雨雪反光、夜间霓虹灯与阴影
这些情况的共同点是:发生概率低,但一旦发生就决定系统是否可靠。Robotaxi 要扩大运营范围,边缘场景不是“锦上添花”,而是“能不能开”的门槛。
Uber 的独特位置:天然更懂“哪里最难”
与传统车企不同,Uber 的优势不在车端硬件,而在于:
- 城市覆盖广:不同城市道路风格差异巨大
- 订单时段复杂:夜间、机场、演唱会散场等高难度场景多
- 路线分布真实:不是测试车“挑好路”跑,而是需求驱动
这让 Uber 很适合做一件事:把数据采集与标签体系标准化,再把“高价值场景包”交给合作伙伴训练与验证。
一句话总结:Uber 不是去造 Robotaxi,而是去“喂饱”Robotaxi。对模型来说,食谱比厨房更重要。
“边缘场景”为什么决定 Robotaxi 上线速度
边缘场景的本质是:长尾分布问题。自动驾驶系统在 99% 的常规场景里表现稳定,不代表它适合载客商业化;真正影响监管、保险、乘客信任的,往往是那 1% 的“意外”。
端到端 vs 规则系统:都绕不开长尾
在 Tesla 式端到端(end-to-end)路线里,模型依赖大规模视频数据学习驾驶策略,迭代速度很快,但对数据质量与覆盖率极其敏感。
在很多中国车企常见的多传感器、多模块体系里(摄像头+毫米波雷达+激光雷达,叠加感知/预测/规划模块),优势是可解释性更强、对特定场景可做工程兜底,但同样会被长尾拖住:
- 传感器在极端天气下失效组合
- 规则与学习模块之间的冲突
- 城市差异导致的“迁移成本”
所以,路线之争最后都会落到同一个问题:边缘场景从哪里来、怎么快、怎么可复用。
为什么“数据量”不是唯一指标,“有效数据”才是
很多团队喜欢讲“我们有多少万小时路测”,但对提升安全更关键的是:
- 稀有程度:是否包含长尾事件(鬼探头、无保护左转等)
- 可复现性:是否能回放、重建场景(多模态、时间对齐)
- 标注一致性:标签标准是否统一(同一行为不同标法会污染训练)
- 闭环效率:发现问题 → 采集更多同类样本 → 训练 → 验证的周期有多短
Uber AV Labs 若能把“有效数据管道”做成产品,它对合作伙伴的价值会非常直接:缩短从发现缺陷到修复缺陷的时间。
AV Labs 像什么?它更接近“汽车软件的数据中台”
把 AV Labs 放进汽车软件与用户体验(UX)的框架里,它其实更像一个跨品牌、跨车型的 AI 数据中台:
- 上游:从真实运营中获得数据(订单、路线、道路类型、时间段)
- 中游:清洗、脱敏、切片、自动标注与人工复核、场景聚类
- 下游:提供给不同 Robotaxi 合作方训练与验证
对比 Tesla:车队闭环 vs 平台协同
- Tesla:自有车队数据闭环强,数据与模型迭代高度一体化;缺点是策略与数据资产更封闭。
- Uber:不掌控车辆硬件与整车系统,但可通过平台把“运营难题”转成“数据资产”;难点是多合作方的数据标准、合规与接口一致性。
我更愿意把它看成两种“规模”的竞争:Tesla 扩大的是车队规模;Uber 试图扩大的是场景规模。
对比中国车企:多供应商生态的“标准化之痛”
中国车企在 2024-2026 的趋势很明显:域控集中、软件定义汽车深化、座舱大模型上车,同时在自动驾驶上形成了多种组合(自研+供应商+地图/云平台)。这类生态最大痛点通常是:
- 数据格式不统一(传感器、时间戳、坐标系)
- 标注标准不统一(目标类别、意图标注、可行驶区域定义)
- 责任边界不清(事故归因、功能退化策略)
Uber AV Labs 如果能把数据“产品化”,反而给中国车企一个启发:当供应链复杂时,最先要标准化的不是模型,而是数据协议与场景库。
从“自动驾驶数据”延伸到“用户体验”:AI 的价值在于把不确定变可控
这篇文章的主题不只是 Robotaxi。对汽车软件与用户体验来说,Uber 的做法说明了一个更普遍的规律:AI 体验提升来自对异常的处理能力。
UX 里的“边缘场景”同样致命
座舱语音、导航、AEB/ACC、泊车、车机推荐,其实都有各自的边缘场景:
- 语音:方言、口音、多人同时说话、音乐背景噪声
- 导航:临时交通管制、地下车库定位漂移、城市高架多层结构
- 驾驶辅助:雨雪脏污导致摄像头遮挡、逆光误检、锥桶与行人混淆
用户不太会夸“你在常规情况下做对了”,但会牢牢记住一次失败:误刹、乱报、听不懂、反应慢。这跟 Robotaxi 的边缘场景逻辑完全一致。
可落地的三条方法:车企怎么学 Uber 的“数据思维”
-
建立场景优先级清单(Scenario Backlog)
- 以“事故风险 × 发生频率 × 用户感知强度”排序
- 每次 OTA 迭代明确解决哪 10 个场景
-
把数据采集变成产品能力
- 车端触发:当发生急刹、接管、误报时自动打点并上传关键片段
- 云端回溯:同类场景聚类,形成可复用训练集
-
用一致的评测指标逼近真实体验
- 不只看离线 mAP、F1,更要看场景级通过率、接管率、误触发率
- 建议固定三类指标:安全(误刹/漏检)、舒适(加减速 jerk)、效率(通行时间)
观点很直白:AI 上车不是“加模型”,而是“加闭环”。没有闭环的智能体验,只能靠运气。
常见追问:平台做数据,会不会卡住合作伙伴?
答案是:会,也必须管。数据共享越深入,越需要清晰的合规与商业边界,否则合作伙伴不敢用、监管也不会放行。
一个可执行的做法是把数据分层:
- 公共层:道路结构、交通流统计、非个人敏感的场景分布
- 合作层:脱敏后的传感器片段、标签与事件索引
- 专属层:与某一合作方深度绑定的车端数据与模型反馈
另外两条底线必须提前设计:
- 隐私与合规:人脸、车牌、位置轨迹的脱敏与最小化原则
- 责任链条:谁采集、谁标注、谁训练、谁上线、谁承担风险
对中国市场来说,这套机制更关键,因为数据跨域、跨城市、跨主体流转的监管要求更严格。能不能把合规做成工程能力,会直接决定规模化速度。
写在最后:自动驾驶的下一阶段,拼的是“把长尾变短”
Uber 推出 AV Labs 的信号很现实:Robotaxi 的竞争,正在从“谁能跑起来”变成“谁能跑得久、跑得稳、跑得广”。而这背后不是一句“AI 更聪明了”,而是数据获取、场景管理与迭代闭环。
回到本系列的主线:Tesla 的端到端路线靠车队闭环持续压缩长尾;中国车企的多传感器与生态协同路线,正在用工程化与规模化运营逼近长尾;Uber 则想用平台身份,把“城市最难的那一公里”打包成数据资产,卖给需要的人。
如果你正在规划智能驾驶或座舱体验,我建议你先问团队一个问题:你们的“边缘场景库”今天更新了吗?