自动驾驶 AI：Tesla 与中国车企的发展路径对比•2025年12月30日•By 3L3C

小鹏与北大提出 FastDriveVLA，用 token 裁剪把车端大模型计算量降近7.5×，延迟更低且性能几乎不掉。效率正在决定自动驾驶体验与量产可行性。

自动驾驶端到端模型车端部署推理优化小鹏AAAI用户体验

Featured image for 车端大模型不靠堆算力：小鹏 FastDriveVLA 如何把延迟打下来

车端大模型不靠堆算力：小鹏 FastDriveVLA 如何把延迟打下来

2025-12-30，小鹏汽车与北京大学计算机学院国家重点实验室的联合论文被 AAAI 2026 接收（接收率 17.6%）。新闻点不只是“又中了一篇顶会”，而是它把一个行业里最现实的矛盾摆到台面上：端到端自动驾驶大模型越来越聪明，但车端算力、功耗、时延和成本永远有限。

我一直觉得，自动驾驶的胜负手不只在模型大小，而在“模型能不能在车上稳定跑、持续迭代、让用户感知到更顺更稳”。这也是我们这组《自动驾驶 AI：Tesla 与中国车企的发展路径对比》系列反复讨论的主题：Tesla 更像“单栈端到端 + 极致工程化”，中国车企则常见“多传感器、多供应商协同 + 本地化优化”。而小鹏这次的 FastDriveVLA，正是典型的车端部署优化：让大模型更“省”，但不变“笨”。

FastDriveVLA 解决的核心问题：视觉 token 太多，车端吃不消

结论先说：FastDriveVLA 的目标是减少端到端 VLA（视觉-语言-动作）模型里的视觉 token 数量，从而显著降低计算量与推理时延，同时尽量不牺牲驾驶性能。

为什么“token 数量”会变成瓶颈？

在端到端自动驾驶里，视觉编码器会把图像切成许多 patch/区域并映射为 token。模型规模上去后，token 数量往往也随输入分辨率、时序长度一起膨胀。

问题在于：

车端不是数据中心：算力有上限，功耗和散热更敏感。
时延直接影响体验：同样的规划策略，100ms 和 30ms 的响应差别，用户体感非常明显，尤其在并线、加塞、路口博弈。
成本与可量产性：更强芯片意味着更高 BOM，最终会反映在车型定价和毛利上。

这也是为什么“让模型更高效”在 2026 前后会越来越重要。大模型上车，真正的门槛是实时性工程，不是 Demo。

FastDriveVLA 的关键做法：用 ReconPruner 做“前景优先”的 token 裁剪

FastDriveVLA 提出了一套视觉 token 裁剪框架，并设计了可插拔的裁剪器 ReconPruner。一句话概括它的直觉：

自动驾驶里最该被模型盯住的，是“前景关键体”：行人、车辆、交通标志、信号灯、路缘和冲突点；背景细节能省则省。

“前景—背景对抗式重建”到底在干什么？

论文介绍 ReconPruner 使用一种前景–背景的对抗式重建策略来训练模型“把注意力放在前景”。你可以把它理解为：

训练时让模型在重建/理解任务中对前景更“敏感”；
同时学会对背景冗余信息“不那么依赖”；
推理时就能更有把握地丢掉一部分不关键 token。

这点很像人开车的注意力机制：雨夜在城市里，你会更关注前车刹车灯、路口斑马线和突然探头的人，而不是远处楼宇的玻璃反光。

nuScenes-FG：241,000 组前景分割数据的意义

为了支撑训练，团队构建了 nuScenes-FG，包含 241,000 对图像–mask 的前景分割数据。

我对这类数据工作的评价一直很高：大模型上车不是“只要网络结构”，更是“有没有把训练信号做对”。前景 mask 的引入，等于在训练阶段明确告诉模型：什么更像驾驶决策的因果因素。

对中国车企来说，这类本地化数据/任务设计尤其关键。因为国内道路场景复杂度高、弱势交通参与者多、标线/施工/非标路口更常见——“把注意力放对地方”，比单纯增大模型更划算。

7.5× 计算削减意味着什么：不仅更快，也更稳、更省

FastDriveVLA 在 nuScenes 基准上给出的数字很直接：

将视觉 token 从 3,249 降到 812
计算量削减接近 7.5×
裁剪 25% token 几乎无性能损失
裁剪 50% 仍能在多项指标上保持较均衡表现

结论先落地：算力压力降低后，你能换来三个“车端真实收益”。

1) 更低时延：用户能直接感知的“顺”

自动驾驶体验里，“丝滑”往往来自更及时的感知更新与规划迭代。token 少了，推理更快：

规划更敢做小幅度修正（而不是大起大落）；
对突发 cut-in、横穿、无保护左转更从容；
在车流密集的早晚高峰，体感差异更明显。

2) 更低功耗：对量产车型的价值被低估了

功耗不只是续航问题，还影响：

热管理与降频风险（夏天堵车场景最典型）；
座舱与智驾并行运行的资源竞争；
长时间 NOA 使用的稳定性。

把计算削下来，很多时候比“再换更大芯片”更现实。

3) 更强的工程冗余：给安全留余地

车端系统是一个链路：感知、定位、预测、规划控制、监控与回退。任何一个环节算力吃紧，都可能挤压其他线程。

当 VLA 模型更省算，你可以：

给异常检测/安全监控留更多资源；
提高冗余模块的运行频率；
在极端场景下保持更稳定的帧率和响应。

一句话：效率不是“省钱”，效率是“更可控”。

放到“Tesla vs 中国车企路线”里看：效率优化是中国队的强项

这篇工作有意思的地方在于，它不直接回答“端到端是不是唯一答案”，而是回答了更落地的问题：端到端模型上车后怎么跑得起来、跑得稳、跑得久。

Tesla 的强项：统一栈、强工程化、端到端闭环

Tesla 长期强调统一感知与端到端学习，配合大规模车队数据闭环，优点是迭代快、体验一致性强。

但它也面临同样的硬约束：车端算力和时延。你会发现，真正的竞争点会从“模型结构哲学”逐渐转向“谁更会做车端推理优化、谁更会把算力花在刀刃上”。

中国车企的机会：本地化场景 + 硬件效率 + 生态协同

小鹏这类“产学研联合”的路线很中国：

学术界提供新训练范式与数据构建能力；
车企提供量产约束与真实道路需求；
最终落到可部署、可维护的车端系统。

这也与中国车企常见的多供应商、多传感器协同并不冲突。相反，当你必须把多路输入、多任务并行放进一台车端计算平台时，任何 7.5× 的计算节省都非常值钱。

落地建议：做车端大模型与用户体验，你可以优先抓这三件事

如果你在做智能驾驶/座舱/整车软件，想把“AI 在汽车软件与用户体验中的不同应用方式”做出差异，我建议别一上来就追更大模型，先把下面三件事做扎实。

1) 先定义“前景关键体”，再谈端到端

把驾驶任务拆成可度量的注意力对象：

弱势交通参与者（行人、非机动车）
交通控制信息（灯、牌、标线）
冲突区域（汇入、交叉口、盲区出入口）

然后问一句硬问题：模型的算力主要花在这些上了吗？

2) 把“时延预算”写进产品指标，而不是只写在 PPT

很多团队做 NOA 只盯通过率、接管率，但体验差往往出在：

感知到规划链路的端到端时延
帧率波动（抖动）
高负载下的降级策略

给每个模块定“时延预算”，比给模型加层更能改善用户体感。

3) 建立可插拔的推理优化栈：裁剪、量化、蒸馏要能组合

FastDriveVLA 强调 “plug-and-play”，这点我非常认同。量产的现实是：

不同车型芯片不同；
不同版本功能不同；
OTA 要可控回滚。

因此推理优化最好是模块化的：

token 裁剪（如本次思路）
INT8/FP8 量化
蒸馏与小模型回退
缓存与时序复用

能组合，才有工程弹性。

结尾：端到端的竞争，终局看“谁更会省算力”

FastDriveVLA 这类研究传递了一个清晰信号：**自动驾驶大模型的下一阶段，不是更大，而是更高效、更可部署。**当视觉 token 从 3,249 降到 812、计算量接近 7.5× 的削减成为可能，车企就有机会把同样的硬件做出更低时延、更稳定、更接近“老司机”的体验。

对于关注 Tesla 与中国车企路线差异的人来说，这也是一个很好的观察窗口：Tesla 擅长统一栈的规模化闭环，而中国车企正在把“车端效率优化 + 本地化场景理解 + 生态协同”做成自己的节奏。

接下来值得追的一个问题是：**当端到端模型被压到更低时延后，车企会把省下来的算力优先用在更强的安全冗余，还是更激进的体验功能上？**这会直接决定用户对“智能驾驶像不像人”的最终评价。