自动驾驶 AI：Tesla 与中国车企的发展路径对比•2025年12月31日•By 3L3C

小鹏与北大提出FastDriveVLA，用token剪枝让车端端到端大模型算力降约7.5倍且几乎无损性能。读懂它，也就读懂中国车企的“效率落地路线”。

FastDriveVLA车端部署Token剪枝端到端智驾VLA小鹏汽车AAAI2026

Featured image for 车端大模型如何跑得动？小鹏FastDriveVLA给出7.5倍降算力答案

车端大模型如何跑得动？小鹏FastDriveVLA给出7.5倍降算力答案

2025-12-30，一条看似“学术圈新闻”其实很车圈：小鹏汽车与北京大学的联合论文被 AAAI 2026 接收（录用率约 17.6%）。论文提出的 FastDriveVLA 把端到端自动驾驶大模型在车端的推理计算量降了 约 7.5 倍，而且“几乎不掉点”。

我越来越相信，智能驾驶真正的分水岭不只在模型精度，而在能不能稳定、低延迟、低功耗地跑在车上。尤其到了 2025 年底，大家都在谈“端到端”“大模型上车”，但现实是：你可以在云端跑得很漂亮，落到量产车的算力、散热、成本和可靠性约束里，就会立刻现原形。

这篇文章放在我们的系列《自动驾驶 AI：Tesla 与中国车企的发展路径对比》里看更有意思：Tesla 更像“用强算力+统一架构把模型推到极致”，而中国车企（以小鹏为代表）则更像“在复杂供应链和车规约束中，把模型做得更会省、更好用、更好落地”。FastDriveVLA 正是后者的典型样本。

车端部署的硬仗：不是“能跑”，而是“跑得久、跑得稳、跑得省”

车端大模型的核心矛盾很直白：模型越大，视觉 token 越多，算得越慢；算得越慢，延迟越高；延迟越高，驾驶决策越不可信。

在自动驾驶端到端路线里，视觉输入往往被切成大量 token 送入 Transformer 类结构。问题是，真实道路画面里“有用的信息”比例并不高：

对驾驶最关键的通常是：行人、车辆、交通灯、标志标线、路口结构、可行驶区域等
而大量“背景像素”其实贡献有限：天空、楼体纹理、树叶细节、路边广告牌碎片信息……

但模型并不会天然知道哪些该重点看，哪些可以忽略。于是车端硬件要为这些“无效细节”付出昂贵代价：算力占用、发热、能耗、甚至带来时延抖动。

FastDriveVLA 的切入点很务实：别让模型把时间浪费在背景上。

FastDriveVLA 做对了什么：把“人类驾驶注意力”变成可训练的剪枝机制

FastDriveVLA 面向的是端到端的 Vision-Language-Action（VLA） 结构：视觉理解 + 语言/语义条件 + 动作输出。随着 VLA 模型规模变大，视觉 token 数量成了最主要的计算负担之一。

论文的关键贡献是一个可插拔的 token 剪枝器：ReconPruner。它的思路可以用一句话概括：

先学会“用少量 token 重建关键前景”，再把不重要的 token 删掉。

ReconPruner：用“前景-背景对抗重建”逼模型学会取舍

ReconPruner 使用 前景-背景对抗重建策略（foreground–background adversarial reconstruction）。直觉上，它做了两件事：

强化前景信息的可恢复性：即便删掉部分 token，模型仍能重建出与驾驶相关的前景要素（行人、车、标志、信号灯等）。
弱化背景细节的重要性：背景细节在重建目标里被“降权”，模型自然学会把注意力预算留给前景。

这点很像人开车：你不会盯着远处楼体纹理看，也不会逐像素研究路边树叶。你会把注意力压在“会动的、会变道的、会突然冲出来的”对象上。

nuScenes-FG：241,000 组前景分割，让“前景”有数据可学

方法要有效，关键在训练数据要告诉模型什么叫前景。研究团队构建了 nuScenes-FG：一个大规模前景分割数据集，包含 241,000 组 image–mask 对。

这一步其实很关键：很多“省算力”方法只靠启发式规则（例如按注意力分数硬删 token），容易在复杂场景下误删关键对象。把前景显式标注出来，等于给剪枝提供了更可靠的监督信号。

数字说明一切：25%剪枝几乎无损，算力最高降到约7.5倍

这项工作最抓人的地方是结果非常工程化，且指标明确：

在 nuScenes 基准上，剪掉 25% 视觉 token 几乎没有性能损失
剪掉 50% 仍能在多项指标上保持相对均衡
token 数从 3,249 降到 812，计算量减少接近 7.5×，同时显著降低推理延迟

对量产车来说，7.5× 的意义不只是“跑更快”。我更看重它带来的连锁反应：

同等硬件上更低延迟：更接近实时决策，尤其利于拥堵切入、无保护左转等高时效场景
同等体验下降低成本：同样的智能驾驶能力，可能用更便宜的芯片/更宽松的散热设计
同等精度下更高冗余：省下的算力可以用于多传感器融合、OCC、轨迹采样、异常检测等安全模块

一句话：效率不是“锦上添花”，而是决定能不能大规模交付的门槛。

放到Tesla vs 中国车企路线里看：差别不在“谁更聪明”，而在“谁更会落地”

这篇论文很适合拿来做路线对比，因为它揭示了一个被忽略的事实：

端到端模型的竞争，迟早会从“谁的曲线更高”转向“谁的曲线更便宜、更稳定、更可量产”。

Tesla 的强项：统一硬件栈 + 极致数据闭环

Tesla 的策略更偏“强硬件+强数据+强一体化”。好处是架构统一、端到端链路短、迭代速度快。代价也明显：对算力预算、功耗、热设计、供应链一致性要求更高。

中国车企的现实：多供应商、多传感器、车规与成本约束更复杂

中国市场的量产节奏和配置差异更大：不同车型、不同芯片平台、不同传感器组合、不同成本带宽。于是中国车企更容易走出一条“工程优先”的路径：

追求“够用且好用”的体验，而不是单点指标拉满
把 车端效率优化 当作与模型精度同级的目标
更强调本地道路场景适配（复杂路口、混行、非结构化道路、施工绕行）

FastDriveVLA 这种“可插拔剪枝”就很符合这个生态：它不要求你推翻现有模型体系，而是作为模块加入，让大模型更适应车端硬件约束。

从智能驾驶到座舱体验：车端高效大模型会改写什么？

很多人把“车端大模型效率”只当成智驾话题。我倒觉得，它会直接影响用户体验（UX），尤其在 2026 年会更明显：

1）更稳定的“驾驶风格一致性”

延迟降低后，控制输出抖动会变少。你会感觉车更“稳”、更像一个老司机，而不是时快时慢的机器人。

2）更多“在线”安全策略可同时运行

算力省出来，可以把更多安全相关模块常驻：

异常行为检测（突发行人、鬼探头概率上升）
轨迹多样性采样（不只一条方案，容错更高）
场景理解冗余（例如关键目标重复确认）

3）座舱端的本地智能也会受益

当车端推理更省，厂商更敢把“个性化与隐私敏感”的能力放在本地：

本地语音/多模态助手（弱网也能用）
本地驾驶意图解释（更快、更少上传）
针对中国道路习惯的提示与纠错（更贴地气）

对用户来说，这些不是“技术亮点”，而是“这车怎么突然更顺手了”。

落地建议：如果你在做车载AI/软件产品，优先盯住这4件事

FastDriveVLA 给产品和研发团队的启发很明确：**不要只追 SOTA，要追交付。**我建议从四个问题入手做路线规划：

把“延迟预算”写进需求文档：不同场景可接受的端到端时延上限是多少？用数据说话。
建立 token/算力的成本模型：每多一个 token 带来多少 ms、多少 W、多少温升？否则优化无从下手。
前景定义要产品化：对你的车来说，“前景”包括什么？弱势交通参与者、两轮车、锥桶、临停车辆……要能被标注、可迭代。
模块可插拔优先：能像 ReconPruner 一样“加一块就能省一截”，往往比推翻重来更快进入量产。

我见过不少团队把端到端当成“架构信仰”，最后在算力、热管理和成本面前被迫妥协。更聪明的做法是：从一开始就把效率当成第一性约束。

2026 会怎么走：效率优化将成为端到端第二战场

AAAI 2026 接收这类工作，本身就说明学术界和产业界的关注点在变：从“更大更强”转向“更强且更省”。

小鹏与北大这项 FastDriveVLA 的意义，不只是一篇论文，而是给行业一个明确方向：车端大模型想规模化上路，必须学会“看重点、少废话、快决策”。

如果你正在评估智能驾驶方案、规划车载软件架构，或者做座舱+智驾一体化体验设计，可以把问题换个问法：你的系统里，哪些计算是“必须的”，哪些只是“看起来很努力”？ 2026 年，答案会决定体验，也会决定成本曲线。