具身基础模型落地:从高德ABot看汽车软件与座舱体验

人工智能在机器人产业By 3L3C

高德发布ABot-M0/ABot-N0具身基础模型,刷新多项导航与操控基准。本文拆解其统一架构与闭环数据方法,并映射到汽车软件与智能座舱体验。

具身智能智能导航智能座舱汽车软件VLA闭环控制
Share:

Featured image for 具身基础模型落地:从高德ABot看汽车软件与座舱体验

具身基础模型落地:从高德ABot看汽车软件与座舱体验

2分钟的新闻里,最容易被忽略的往往是“工程信号”。2026-02-12,高德(AutoNavi)发布两款具身基础模型:ABot-M0(操控)ABot-N0(导航)。其中,ABot-M0在Libero-Plus基准上达到80.5%任务成功率,比此前领先方法高出近30个百分点;ABot-N0在多项导航评测刷新纪录,并在SocNav闭环仿真中将成功率提升40.5%

很多人会把这类进展归到“机器人更聪明了”。我更愿意把它看成另一个趋势:导航与操控正在被同一类‘可迁移的基础能力’重写。这对我们的“人工智能在机器人产业”系列当然重要,但它同样直接指向一个更现实的战场——汽车软件与用户体验(UX)。从智能座舱的自然语言交互,到自动泊车/低速代驾的闭环控制,很多体验瓶颈并不在屏幕UI,而在“理解-规划-执行”链路的稳定性。

下面我尝试用更“汽车人能用得上”的方式拆解:ABot为什么值得关注?它透露了哪些产品与工程方法?又会怎样影响智能导航、智能座舱和软件迭代效率?

ABot-M0:把“操控”做成可迁移能力,意义不止机器人

结论先说:ABot-M0的价值在于“统一架构+统一数据语言”,让操控从单任务小模型走向跨平台复用。 这件事在汽车软件里对应的关键词是:跨车型复用、跨域一致、体验稳定

高德将ABot-M0定位为“统一架构”的机械臂操控基础模型:它通过标准化坐标系、控制频率、增量运动建模,把不同平台的轨迹数据放进同一套表达里训练。数据侧也很硬:据公开信息,训练集来自公共数据源,包含9,500+小时、约600万条轨迹、覆盖20+种具身形态

为什么“统一”是决定性的工程选择

汽车行业最熟悉的一句话是:体验差异往往来自“系统边界”。同一个功能在不同车型上表现不同,常见原因不是算法不够强,而是:

  • 传感器与执行器规格不一致(帧率、噪声、延迟)
  • 控制接口与标定策略不一致(横纵向控制、制动线性化)
  • 数据采集口径不一致(坐标系、同步机制、事件定义)

ABot-M0试图把“数据-控制”的底层协议统一起来,等于先把可迁移性铺平。放到汽车里,这启发我们:想让智能泊车、自动跟车、智能召唤在不同车型上表现稳定,别先卷模型大小,先卷‘数据与控制的统一语言’。

AML与3D感知:从“会动”到“动得对”

ABot-M0引入Action Manifold Learning(AML)并结合3D感知模块,提升空间语义理解与动作生成的可靠性。对汽车体验来说,这对应两类用户痛点:

  • “知道该去哪”:语义理解到位(例如“在地库找C区电梯口最近的出口”)。
  • “知道怎么去”:动作规划可信(例如窄车位一次进、少来回、不吓人)。

很多智能驾驶/泊车体验翻车,并不是“看不见”,而是“动作不自然”或“控制抖动”。类似AML这类把动作约束到更合理流形上的方法,本质是在减少“看起来像机器人”的突兀感。

ABot-N0:导航基础模型的“脑-行动”分层,正适合座舱与车端协同

结论先说:ABot-N0把导航拆成“语义认知(脑)+轨迹专家(行动)”,这几乎就是下一代智能座舱与自动驾驶协同架构的样子。

ABot-N0是一个基于VLA(Vision-Language-Action)框架的导航基础模型,统一了五类核心任务:

  1. 点到点导航
  2. 目标物体导航
  3. 指令跟随
  4. 兴趣点(POI)导航
  5. 行人跟随

它采用分层的“brain–action”架构:上层由预训练大语言模型做语义理解与任务拆解,下层用行动专家通过flow matching生成精确轨迹。

为什么分层架构会提升“用户体验一致性”

智能座舱的体验目标不是“回答得像个人”,而是:把用户意图稳定地转换为可执行的动作,并在失败时给出可理解的反馈。

分层的好处很现实:

  • 上层负责“讲人话”:理解意图、消歧、规划步骤(例如“先到取快递点,再去充电站”)。
  • 下层负责“做得稳”:把规划落到轨迹、速度、避障策略上,满足实时性。

这也更适合车端部署:车机可在本地跑行动层(低延迟、闭环控制),语义层可按场景选择本地小模型或云端增强(成本可控)。新闻里提到ABot-N0已在四足机器人上实现边缘设备高效推理与闭环控制,这点对车端同样关键:能跑起来,才谈得上体验。

数据引擎:8000个3D场景与1700万示范,真正“卷”的是数据系统

高德构建了一个导航数据引擎:约8,000个高保真3D场景、近1,700万条专家示范。模型在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON等基准上刷新成绩;其中SocNav闭环成功率提升40.5%,HM3D-OVON的目标物体导航成功率提升8.8%

这些数字背后透露一个行业共识:基础模型时代,护城河往往是“数据生产线”,不是一次训练。

对应到汽车软件:真正拉开差距的不是“接了哪个大模型API”,而是你能不能持续产出高质量的:

  • 驾驶/泊车的难例与回放数据
  • 座舱多轮对话的意图纠错样本
  • 地图、道路语义、POI与停车场结构化信息
  • 线上A/B与灰度策略带来的可量化反馈

从机器人到汽车:三条可直接落地的启发

结论先说:ABot的思路能直接迁移到汽车软件与UX的三件事——统一架构、闭环指标、体验级评测。

1)用“统一动作空间”治理跨车型体验差

很多车企的现实是:同一套功能在不同平台上要重做标定、重写控制器、重建数据管线。ABot-M0强调坐标系、控制频率、增量动作建模统一,给我们的启发是:

  • 先定义统一的车辆动作接口(纵向/横向/换挡/制动请求的抽象层)
  • 再统一数据事件(接管、舒适度抖动、目标丢失、路径重规划等)
  • 最后才是训练“更大”的模型

如果你在做智能泊车或低速辅助驾驶,这个顺序能明显减少返工。

2)把“成功率”拆成用户能感知的体验指标

ABot用基准测试给出了“成功率提升30个百分点”“闭环提升40.5%”这类可复述数字。汽车体验也需要可复述的指标体系,建议至少包含:

  • 任务成功:一次入位率、一次通过率、误入禁行率
  • 效率:平均耗时、平均重规划次数、等待时间
  • 舒适:加加速度(jerk)分布、急刹次数、低速顿挫
  • 可解释:失败原因归因覆盖率、对用户提示的可理解度

我见过不少项目“路测感觉不错”,一到量产就掉链子,原因就是没有把体验拆成可追踪指标,数据回流也无法对齐。

3)智能座舱的下一步:从“对话”走向“可执行代理”

ABot-N0统一指令跟随、POI导航、行人跟随等任务,本质是在做“空间里的可执行代理”。对智能座舱来说,这意味着:

  • 不止是语音问答,而是**“理解意图→拆解任务→调用车端能力”**
  • 例如“帮我找个带充电桩的停车场,到了之后提醒我把后备箱打开”这种跨域指令

这里面最难的不是生成语言,而是:调用链路稳定、权限边界清晰、失败可恢复。分层“脑-行动”架构提供了一个更务实的路线:语义层负责计划与对齐,行动层负责确定性执行。

常见追问:这类具身基础模型离上车还有多远?

结论先说:短期先影响“低速场景与座舱代理”,中期影响“园区/地库等半结构化自动驾驶”,长期才是更泛化的端到端体验统一。

  • 短期(6-12个月):把分层架构用于车机代理(导航、停车场找位、充电规划、跨应用指令),以及低速自主移动(代客泊车、地库巡航)。
  • 中期(1-3年):更多在封闭/半封闭区域实现稳定闭环,比如园区接驳、矿区/港口、工厂物流车与乘用车的“共享能力”。
  • 长期(3年+):真正把“语义理解+3D空间+动作控制”打通到更开放道路,同时满足法规、安全冗余与成本约束。

我比较明确的观点是:谁能先把闭环做稳,谁就能把体验做成品牌资产。 大模型会越来越像“水电煤”,但闭环工程和数据系统不会。

给团队的实操清单:想做出“像样”的智能导航/座舱,先做这4步

结论先说:把项目从“模型驱动”切换到“系统驱动”。

  1. 统一接口与坐标体系:把传感器、定位、地图、控制输出的时空对齐写成强约束规范。
  2. 建立闭环回放与难例挖掘:每次接管/失败都能自动生成可训练样本与可复现实验。
  3. 分层架构落地:语义层(LLM/小模型)只输出可审计的计划与约束;行动层输出轨迹并接受安全规则钳制。
  4. 体验指标产品化:把成功率、耗时、jerk等指标做成看板,与版本发布门槛绑定。

一句好用的判断标准:如果你的系统无法解释“为什么失败、下次怎么避免”,那它就很难规模化量产。

系列小结:机器人产业的答案,正在改写汽车软件的提问方式

高德ABot-M0与ABot-N0最值得学习的,不是“又一个模型刷新SOTA”,而是它们对统一架构、数据引擎、闭环评测的坚持。具身智能在机器人产业里验证的方法论,会加速回流到汽车:让智能导航更像一个可靠的执行者,让智能座舱不止会聊天,更能把任务办成。

如果你正在做汽车软件、智能座舱或自动驾驶产品,不妨反过来问团队一个更尖锐的问题:我们是在优化某个模型的表现,还是在打造一个能持续自我改进的闭环系统?