小鹏与北大提出FastDriveVLA,用token剪枝让车端端到端大模型算力降约7.5倍且几乎无损性能。读懂它,也就读懂中国车企的“效率落地路线”。

车端大模型如何跑得动?小鹏FastDriveVLA给出7.5倍降算力答案
2025-12-30,一条看似“学术圈新闻”其实很车圈:小鹏汽车与北京大学的联合论文被 AAAI 2026 接收(录用率约 17.6%)。论文提出的 FastDriveVLA 把端到端自动驾驶大模型在车端的推理计算量降了 约 7.5 倍,而且“几乎不掉点”。
我越来越相信,智能驾驶真正的分水岭不只在模型精度,而在能不能稳定、低延迟、低功耗地跑在车上。尤其到了 2025 年底,大家都在谈“端到端”“大模型上车”,但现实是:你可以在云端跑得很漂亮,落到量产车的算力、散热、成本和可靠性约束里,就会立刻现原形。
这篇文章放在我们的系列《自动驾驶 AI:Tesla 与中国车企的发展路径对比》里看更有意思:Tesla 更像“用强算力+统一架构把模型推到极致”,而中国车企(以小鹏为代表)则更像“在复杂供应链和车规约束中,把模型做得更会省、更好用、更好落地”。FastDriveVLA 正是后者的典型样本。
车端部署的硬仗:不是“能跑”,而是“跑得久、跑得稳、跑得省”
车端大模型的核心矛盾很直白:模型越大,视觉 token 越多,算得越慢;算得越慢,延迟越高;延迟越高,驾驶决策越不可信。
在自动驾驶端到端路线里,视觉输入往往被切成大量 token 送入 Transformer 类结构。问题是,真实道路画面里“有用的信息”比例并不高:
- 对驾驶最关键的通常是:行人、车辆、交通灯、标志标线、路口结构、可行驶区域等
- 而大量“背景像素”其实贡献有限:天空、楼体纹理、树叶细节、路边广告牌碎片信息……
但模型并不会天然知道哪些该重点看,哪些可以忽略。于是车端硬件要为这些“无效细节”付出昂贵代价:算力占用、发热、能耗、甚至带来时延抖动。
FastDriveVLA 的切入点很务实:别让模型把时间浪费在背景上。
FastDriveVLA 做对了什么:把“人类驾驶注意力”变成可训练的剪枝机制
FastDriveVLA 面向的是端到端的 Vision-Language-Action(VLA) 结构:视觉理解 + 语言/语义条件 + 动作输出。随着 VLA 模型规模变大,视觉 token 数量成了最主要的计算负担之一。
论文的关键贡献是一个可插拔的 token 剪枝器:ReconPruner。它的思路可以用一句话概括:
先学会“用少量 token 重建关键前景”,再把不重要的 token 删掉。
ReconPruner:用“前景-背景对抗重建”逼模型学会取舍
ReconPruner 使用 前景-背景对抗重建策略(foreground–background adversarial reconstruction)。直觉上,它做了两件事:
- 强化前景信息的可恢复性:即便删掉部分 token,模型仍能重建出与驾驶相关的前景要素(行人、车、标志、信号灯等)。
- 弱化背景细节的重要性:背景细节在重建目标里被“降权”,模型自然学会把注意力预算留给前景。
这点很像人开车:你不会盯着远处楼体纹理看,也不会逐像素研究路边树叶。你会把注意力压在“会动的、会变道的、会突然冲出来的”对象上。
nuScenes-FG:241,000 组前景分割,让“前景”有数据可学
方法要有效,关键在训练数据要告诉模型什么叫前景。研究团队构建了 nuScenes-FG:一个大规模前景分割数据集,包含 241,000 组 image–mask 对。
这一步其实很关键:很多“省算力”方法只靠启发式规则(例如按注意力分数硬删 token),容易在复杂场景下误删关键对象。把前景显式标注出来,等于给剪枝提供了更可靠的监督信号。
数字说明一切:25%剪枝几乎无损,算力最高降到约7.5倍
这项工作最抓人的地方是结果非常工程化,且指标明确:
- 在 nuScenes 基准上,剪掉 25% 视觉 token 几乎没有性能损失
- 剪掉 50% 仍能在多项指标上保持相对均衡
- token 数从 3,249 降到 812,计算量减少接近 7.5×,同时显著降低推理延迟
对量产车来说,7.5× 的意义不只是“跑更快”。我更看重它带来的连锁反应:
- 同等硬件上更低延迟:更接近实时决策,尤其利于拥堵切入、无保护左转等高时效场景
- 同等体验下降低成本:同样的智能驾驶能力,可能用更便宜的芯片/更宽松的散热设计
- 同等精度下更高冗余:省下的算力可以用于多传感器融合、OCC、轨迹采样、异常检测等安全模块
一句话:效率不是“锦上添花”,而是决定能不能大规模交付的门槛。
放到Tesla vs 中国车企路线里看:差别不在“谁更聪明”,而在“谁更会落地”
这篇论文很适合拿来做路线对比,因为它揭示了一个被忽略的事实:
端到端模型的竞争,迟早会从“谁的曲线更高”转向“谁的曲线更便宜、更稳定、更可量产”。
Tesla 的强项:统一硬件栈 + 极致数据闭环
Tesla 的策略更偏“强硬件+强数据+强一体化”。好处是架构统一、端到端链路短、迭代速度快。代价也明显:对算力预算、功耗、热设计、供应链一致性要求更高。
中国车企的现实:多供应商、多传感器、车规与成本约束更复杂
中国市场的量产节奏和配置差异更大:不同车型、不同芯片平台、不同传感器组合、不同成本带宽。于是中国车企更容易走出一条“工程优先”的路径:
- 追求“够用且好用”的体验,而不是单点指标拉满
- 把 车端效率优化 当作与模型精度同级的目标
- 更强调本地道路场景适配(复杂路口、混行、非结构化道路、施工绕行)
FastDriveVLA 这种“可插拔剪枝”就很符合这个生态:它不要求你推翻现有模型体系,而是作为模块加入,让大模型更适应车端硬件约束。
从智能驾驶到座舱体验:车端高效大模型会改写什么?
很多人把“车端大模型效率”只当成智驾话题。我倒觉得,它会直接影响用户体验(UX),尤其在 2026 年会更明显:
1)更稳定的“驾驶风格一致性”
延迟降低后,控制输出抖动会变少。你会感觉车更“稳”、更像一个老司机,而不是时快时慢的机器人。
2)更多“在线”安全策略可同时运行
算力省出来,可以把更多安全相关模块常驻:
- 异常行为检测(突发行人、鬼探头概率上升)
- 轨迹多样性采样(不只一条方案,容错更高)
- 场景理解冗余(例如关键目标重复确认)
3)座舱端的本地智能也会受益
当车端推理更省,厂商更敢把“个性化与隐私敏感”的能力放在本地:
- 本地语音/多模态助手(弱网也能用)
- 本地驾驶意图解释(更快、更少上传)
- 针对中国道路习惯的提示与纠错(更贴地气)
对用户来说,这些不是“技术亮点”,而是“这车怎么突然更顺手了”。
落地建议:如果你在做车载AI/软件产品,优先盯住这4件事
FastDriveVLA 给产品和研发团队的启发很明确:**不要只追 SOTA,要追交付。**我建议从四个问题入手做路线规划:
- 把“延迟预算”写进需求文档:不同场景可接受的端到端时延上限是多少?用数据说话。
- 建立 token/算力的成本模型:每多一个 token 带来多少 ms、多少 W、多少温升?否则优化无从下手。
- 前景定义要产品化:对你的车来说,“前景”包括什么?弱势交通参与者、两轮车、锥桶、临停车辆……要能被标注、可迭代。
- 模块可插拔优先:能像 ReconPruner 一样“加一块就能省一截”,往往比推翻重来更快进入量产。
我见过不少团队把端到端当成“架构信仰”,最后在算力、热管理和成本面前被迫妥协。更聪明的做法是:从一开始就把效率当成第一性约束。
2026 会怎么走:效率优化将成为端到端第二战场
AAAI 2026 接收这类工作,本身就说明学术界和产业界的关注点在变:从“更大更强”转向“更强且更省”。
小鹏与北大这项 FastDriveVLA 的意义,不只是一篇论文,而是给行业一个明确方向:车端大模型想规模化上路,必须学会“看重点、少废话、快决策”。
如果你正在评估智能驾驶方案、规划车载软件架构,或者做座舱+智驾一体化体验设计,可以把问题换个问法:你的系统里,哪些计算是“必须的”,哪些只是“看起来很努力”? 2026 年,答案会决定体验,也会决定成本曲线。