车端大模型不靠堆算力:小鹏 FastDriveVLA 如何把延迟打下来

自动驾驶 AI:Tesla 与中国车企的发展路径对比By 3L3C

小鹏与北大提出 FastDriveVLA,用 token 裁剪把车端大模型计算量降近7.5×,延迟更低且性能几乎不掉。效率正在决定自动驾驶体验与量产可行性。

自动驾驶端到端模型车端部署推理优化小鹏AAAI用户体验
Share:

Featured image for 车端大模型不靠堆算力:小鹏 FastDriveVLA 如何把延迟打下来

车端大模型不靠堆算力:小鹏 FastDriveVLA 如何把延迟打下来

2025-12-30,小鹏汽车与北京大学计算机学院国家重点实验室的联合论文被 AAAI 2026 接收(接收率 17.6%)。新闻点不只是“又中了一篇顶会”,而是它把一个行业里最现实的矛盾摆到台面上:端到端自动驾驶大模型越来越聪明,但车端算力、功耗、时延和成本永远有限

我一直觉得,自动驾驶的胜负手不只在模型大小,而在“模型能不能在车上稳定跑、持续迭代、让用户感知到更顺更稳”。这也是我们这组《自动驾驶 AI:Tesla 与中国车企的发展路径对比》系列反复讨论的主题:Tesla 更像“单栈端到端 + 极致工程化”,中国车企则常见“多传感器、多供应商协同 + 本地化优化”。而小鹏这次的 FastDriveVLA,正是典型的车端部署优化:让大模型更“省”,但不变“笨”。

FastDriveVLA 解决的核心问题:视觉 token 太多,车端吃不消

结论先说:FastDriveVLA 的目标是减少端到端 VLA(视觉-语言-动作)模型里的视觉 token 数量,从而显著降低计算量与推理时延,同时尽量不牺牲驾驶性能。

为什么“token 数量”会变成瓶颈?

在端到端自动驾驶里,视觉编码器会把图像切成许多 patch/区域并映射为 token。模型规模上去后,token 数量往往也随输入分辨率、时序长度一起膨胀。

问题在于:

  • 车端不是数据中心:算力有上限,功耗和散热更敏感。
  • 时延直接影响体验:同样的规划策略,100ms 和 30ms 的响应差别,用户体感非常明显,尤其在并线、加塞、路口博弈。
  • 成本与可量产性:更强芯片意味着更高 BOM,最终会反映在车型定价和毛利上。

这也是为什么“让模型更高效”在 2026 前后会越来越重要。大模型上车,真正的门槛是实时性工程,不是 Demo。

FastDriveVLA 的关键做法:用 ReconPruner 做“前景优先”的 token 裁剪

FastDriveVLA 提出了一套视觉 token 裁剪框架,并设计了可插拔的裁剪器 ReconPruner。一句话概括它的直觉:

自动驾驶里最该被模型盯住的,是“前景关键体”:行人、车辆、交通标志、信号灯、路缘和冲突点;背景细节能省则省。

“前景—背景对抗式重建”到底在干什么?

论文介绍 ReconPruner 使用一种前景–背景的对抗式重建策略来训练模型“把注意力放在前景”。你可以把它理解为:

  • 训练时让模型在重建/理解任务中对前景更“敏感”;
  • 同时学会对背景冗余信息“不那么依赖”;
  • 推理时就能更有把握地丢掉一部分不关键 token。

这点很像人开车的注意力机制:雨夜在城市里,你会更关注前车刹车灯、路口斑马线和突然探头的人,而不是远处楼宇的玻璃反光。

nuScenes-FG:241,000 组前景分割数据的意义

为了支撑训练,团队构建了 nuScenes-FG,包含 241,000 对图像–mask 的前景分割数据。

我对这类数据工作的评价一直很高:大模型上车不是“只要网络结构”,更是“有没有把训练信号做对”。前景 mask 的引入,等于在训练阶段明确告诉模型:什么更像驾驶决策的因果因素

对中国车企来说,这类本地化数据/任务设计尤其关键。因为国内道路场景复杂度高、弱势交通参与者多、标线/施工/非标路口更常见——“把注意力放对地方”,比单纯增大模型更划算。

7.5× 计算削减意味着什么:不仅更快,也更稳、更省

FastDriveVLA 在 nuScenes 基准上给出的数字很直接:

  • 将视觉 token 从 3,249 降到 812
  • 计算量削减接近 7.5×
  • 裁剪 25% token 几乎无性能损失
  • 裁剪 50% 仍能在多项指标上保持较均衡表现

结论先落地:算力压力降低后,你能换来三个“车端真实收益”。

1) 更低时延:用户能直接感知的“顺”

自动驾驶体验里,“丝滑”往往来自更及时的感知更新与规划迭代。token 少了,推理更快:

  • 规划更敢做小幅度修正(而不是大起大落);
  • 对突发 cut-in、横穿、无保护左转更从容;
  • 在车流密集的早晚高峰,体感差异更明显。

2) 更低功耗:对量产车型的价值被低估了

功耗不只是续航问题,还影响:

  • 热管理与降频风险(夏天堵车场景最典型);
  • 座舱与智驾并行运行的资源竞争;
  • 长时间 NOA 使用的稳定性。

把计算削下来,很多时候比“再换更大芯片”更现实。

3) 更强的工程冗余:给安全留余地

车端系统是一个链路:感知、定位、预测、规划控制、监控与回退。任何一个环节算力吃紧,都可能挤压其他线程。

当 VLA 模型更省算,你可以:

  • 给异常检测/安全监控留更多资源;
  • 提高冗余模块的运行频率;
  • 在极端场景下保持更稳定的帧率和响应。

一句话:效率不是“省钱”,效率是“更可控”。

放到“Tesla vs 中国车企路线”里看:效率优化是中国队的强项

这篇工作有意思的地方在于,它不直接回答“端到端是不是唯一答案”,而是回答了更落地的问题:端到端模型上车后怎么跑得起来、跑得稳、跑得久。

Tesla 的强项:统一栈、强工程化、端到端闭环

Tesla 长期强调统一感知与端到端学习,配合大规模车队数据闭环,优点是迭代快、体验一致性强。

但它也面临同样的硬约束:车端算力和时延。你会发现,真正的竞争点会从“模型结构哲学”逐渐转向“谁更会做车端推理优化、谁更会把算力花在刀刃上”。

中国车企的机会:本地化场景 + 硬件效率 + 生态协同

小鹏这类“产学研联合”的路线很中国:

  • 学术界提供新训练范式与数据构建能力;
  • 车企提供量产约束与真实道路需求;
  • 最终落到可部署、可维护的车端系统。

这也与中国车企常见的多供应商、多传感器协同并不冲突。相反,当你必须把多路输入、多任务并行放进一台车端计算平台时,任何 7.5× 的计算节省都非常值钱

落地建议:做车端大模型与用户体验,你可以优先抓这三件事

如果你在做智能驾驶/座舱/整车软件,想把“AI 在汽车软件与用户体验中的不同应用方式”做出差异,我建议别一上来就追更大模型,先把下面三件事做扎实。

1) 先定义“前景关键体”,再谈端到端

把驾驶任务拆成可度量的注意力对象:

  • 弱势交通参与者(行人、非机动车)
  • 交通控制信息(灯、牌、标线)
  • 冲突区域(汇入、交叉口、盲区出入口)

然后问一句硬问题:模型的算力主要花在这些上了吗?

2) 把“时延预算”写进产品指标,而不是只写在 PPT

很多团队做 NOA 只盯通过率、接管率,但体验差往往出在:

  • 感知到规划链路的端到端时延
  • 帧率波动(抖动)
  • 高负载下的降级策略

给每个模块定“时延预算”,比给模型加层更能改善用户体感。

3) 建立可插拔的推理优化栈:裁剪、量化、蒸馏要能组合

FastDriveVLA 强调 “plug-and-play”,这点我非常认同。量产的现实是:

  • 不同车型芯片不同;
  • 不同版本功能不同;
  • OTA 要可控回滚。

因此推理优化最好是模块化的:

  • token 裁剪(如本次思路)
  • INT8/FP8 量化
  • 蒸馏与小模型回退
  • 缓存与时序复用

能组合,才有工程弹性。

结尾:端到端的竞争,终局看“谁更会省算力”

FastDriveVLA 这类研究传递了一个清晰信号:**自动驾驶大模型的下一阶段,不是更大,而是更高效、更可部署。**当视觉 token 从 3,249 降到 812、计算量接近 7.5× 的削减成为可能,车企就有机会把同样的硬件做出更低时延、更稳定、更接近“老司机”的体验。

对于关注 Tesla 与中国车企路线差异的人来说,这也是一个很好的观察窗口:Tesla 擅长统一栈的规模化闭环,而中国车企正在把“车端效率优化 + 本地化场景理解 + 生态协同”做成自己的节奏。

接下来值得追的一个问题是:**当端到端模型被压到更低时延后,车企会把省下来的算力优先用在更强的安全冗余,还是更激进的体验功能上?**这会直接决定用户对“智能驾驶像不像人”的最终评价。