人工智能在机器人产业•2026年2月13日•By 3L3C

高德发布ABot-M0/ABot-N0具身基础模型，刷新多项导航与操控基准。本文拆解其统一架构与闭环数据方法，并映射到汽车软件与智能座舱体验。

具身智能智能导航智能座舱汽车软件VLA闭环控制

Featured image for 具身基础模型落地：从高德ABot看汽车软件与座舱体验

具身基础模型落地：从高德ABot看汽车软件与座舱体验

2分钟的新闻里，最容易被忽略的往往是“工程信号”。2026-02-12，高德（AutoNavi）发布两款具身基础模型：ABot-M0（操控）与ABot-N0（导航）。其中，ABot-M0在Libero-Plus基准上达到80.5%任务成功率，比此前领先方法高出近30个百分点；ABot-N0在多项导航评测刷新纪录，并在SocNav闭环仿真中将成功率提升40.5%。

很多人会把这类进展归到“机器人更聪明了”。我更愿意把它看成另一个趋势：导航与操控正在被同一类‘可迁移的基础能力’重写。这对我们的“人工智能在机器人产业”系列当然重要，但它同样直接指向一个更现实的战场——汽车软件与用户体验（UX）。从智能座舱的自然语言交互，到自动泊车/低速代驾的闭环控制，很多体验瓶颈并不在屏幕UI，而在“理解-规划-执行”链路的稳定性。

下面我尝试用更“汽车人能用得上”的方式拆解：ABot为什么值得关注？它透露了哪些产品与工程方法？又会怎样影响智能导航、智能座舱和软件迭代效率？

ABot-M0：把“操控”做成可迁移能力，意义不止机器人

结论先说：ABot-M0的价值在于“统一架构+统一数据语言”，让操控从单任务小模型走向跨平台复用。 这件事在汽车软件里对应的关键词是：跨车型复用、跨域一致、体验稳定。

高德将ABot-M0定位为“统一架构”的机械臂操控基础模型：它通过标准化坐标系、控制频率、增量运动建模，把不同平台的轨迹数据放进同一套表达里训练。数据侧也很硬：据公开信息，训练集来自公共数据源，包含9,500+小时、约600万条轨迹、覆盖20+种具身形态。

为什么“统一”是决定性的工程选择

汽车行业最熟悉的一句话是：体验差异往往来自“系统边界”。同一个功能在不同车型上表现不同，常见原因不是算法不够强，而是：

传感器与执行器规格不一致（帧率、噪声、延迟）
控制接口与标定策略不一致（横纵向控制、制动线性化）
数据采集口径不一致（坐标系、同步机制、事件定义）

ABot-M0试图把“数据-控制”的底层协议统一起来，等于先把可迁移性铺平。放到汽车里，这启发我们：想让智能泊车、自动跟车、智能召唤在不同车型上表现稳定，别先卷模型大小，先卷‘数据与控制的统一语言’。

AML与3D感知：从“会动”到“动得对”

ABot-M0引入Action Manifold Learning（AML）并结合3D感知模块，提升空间语义理解与动作生成的可靠性。对汽车体验来说，这对应两类用户痛点：

“知道该去哪”：语义理解到位（例如“在地库找C区电梯口最近的出口”）。
“知道怎么去”：动作规划可信（例如窄车位一次进、少来回、不吓人）。

很多智能驾驶/泊车体验翻车，并不是“看不见”，而是“动作不自然”或“控制抖动”。类似AML这类把动作约束到更合理流形上的方法，本质是在减少“看起来像机器人”的突兀感。

ABot-N0：导航基础模型的“脑-行动”分层，正适合座舱与车端协同

结论先说：ABot-N0把导航拆成“语义认知（脑）+轨迹专家（行动）”，这几乎就是下一代智能座舱与自动驾驶协同架构的样子。

ABot-N0是一个基于VLA（Vision-Language-Action）框架的导航基础模型，统一了五类核心任务：

点到点导航
目标物体导航
指令跟随
兴趣点（POI）导航
行人跟随

它采用分层的“brain–action”架构：上层由预训练大语言模型做语义理解与任务拆解，下层用行动专家通过flow matching生成精确轨迹。

为什么分层架构会提升“用户体验一致性”

智能座舱的体验目标不是“回答得像个人”，而是：把用户意图稳定地转换为可执行的动作，并在失败时给出可理解的反馈。

分层的好处很现实：

上层负责“讲人话”：理解意图、消歧、规划步骤（例如“先到取快递点，再去充电站”）。
下层负责“做得稳”：把规划落到轨迹、速度、避障策略上，满足实时性。

这也更适合车端部署：车机可在本地跑行动层（低延迟、闭环控制），语义层可按场景选择本地小模型或云端增强（成本可控）。新闻里提到ABot-N0已在四足机器人上实现边缘设备高效推理与闭环控制，这点对车端同样关键：能跑起来，才谈得上体验。

数据引擎：8000个3D场景与1700万示范，真正“卷”的是数据系统

高德构建了一个导航数据引擎：约8,000个高保真3D场景、近1,700万条专家示范。模型在CityWalker、SocNav、R2R-CE/RxR-CE、HM3D-OVON等基准上刷新成绩；其中SocNav闭环成功率提升40.5%，HM3D-OVON的目标物体导航成功率提升8.8%。

这些数字背后透露一个行业共识：基础模型时代，护城河往往是“数据生产线”，不是一次训练。

对应到汽车软件：真正拉开差距的不是“接了哪个大模型API”，而是你能不能持续产出高质量的：

驾驶/泊车的难例与回放数据
座舱多轮对话的意图纠错样本
地图、道路语义、POI与停车场结构化信息
线上A/B与灰度策略带来的可量化反馈

从机器人到汽车：三条可直接落地的启发

结论先说：ABot的思路能直接迁移到汽车软件与UX的三件事——统一架构、闭环指标、体验级评测。

1）用“统一动作空间”治理跨车型体验差

很多车企的现实是：同一套功能在不同平台上要重做标定、重写控制器、重建数据管线。ABot-M0强调坐标系、控制频率、增量动作建模统一，给我们的启发是：

先定义统一的车辆动作接口（纵向/横向/换挡/制动请求的抽象层）
再统一数据事件（接管、舒适度抖动、目标丢失、路径重规划等）
最后才是训练“更大”的模型

如果你在做智能泊车或低速辅助驾驶，这个顺序能明显减少返工。

2）把“成功率”拆成用户能感知的体验指标

ABot用基准测试给出了“成功率提升30个百分点”“闭环提升40.5%”这类可复述数字。汽车体验也需要可复述的指标体系，建议至少包含：

任务成功：一次入位率、一次通过率、误入禁行率
效率：平均耗时、平均重规划次数、等待时间
舒适：加加速度（jerk）分布、急刹次数、低速顿挫
可解释：失败原因归因覆盖率、对用户提示的可理解度

我见过不少项目“路测感觉不错”，一到量产就掉链子，原因就是没有把体验拆成可追踪指标，数据回流也无法对齐。

3）智能座舱的下一步：从“对话”走向“可执行代理”

ABot-N0统一指令跟随、POI导航、行人跟随等任务，本质是在做“空间里的可执行代理”。对智能座舱来说，这意味着：

不止是语音问答，而是**“理解意图→拆解任务→调用车端能力”**
例如“帮我找个带充电桩的停车场，到了之后提醒我把后备箱打开”这种跨域指令

这里面最难的不是生成语言，而是：调用链路稳定、权限边界清晰、失败可恢复。分层“脑-行动”架构提供了一个更务实的路线：语义层负责计划与对齐，行动层负责确定性执行。

常见追问：这类具身基础模型离上车还有多远？

结论先说：短期先影响“低速场景与座舱代理”，中期影响“园区/地库等半结构化自动驾驶”，长期才是更泛化的端到端体验统一。

短期（6-12个月）：把分层架构用于车机代理（导航、停车场找位、充电规划、跨应用指令），以及低速自主移动（代客泊车、地库巡航）。
中期（1-3年）：更多在封闭/半封闭区域实现稳定闭环，比如园区接驳、矿区/港口、工厂物流车与乘用车的“共享能力”。
长期（3年+）：真正把“语义理解+3D空间+动作控制”打通到更开放道路，同时满足法规、安全冗余与成本约束。

我比较明确的观点是：谁能先把闭环做稳，谁就能把体验做成品牌资产。 大模型会越来越像“水电煤”，但闭环工程和数据系统不会。

给团队的实操清单：想做出“像样”的智能导航/座舱，先做这4步

结论先说：把项目从“模型驱动”切换到“系统驱动”。

统一接口与坐标体系：把传感器、定位、地图、控制输出的时空对齐写成强约束规范。
建立闭环回放与难例挖掘：每次接管/失败都能自动生成可训练样本与可复现实验。
分层架构落地：语义层（LLM/小模型）只输出可审计的计划与约束；行动层输出轨迹并接受安全规则钳制。
体验指标产品化：把成功率、耗时、jerk等指标做成看板，与版本发布门槛绑定。

一句好用的判断标准：如果你的系统无法解释“为什么失败、下次怎么避免”，那它就很难规模化量产。

系列小结：机器人产业的答案，正在改写汽车软件的提问方式

高德ABot-M0与ABot-N0最值得学习的，不是“又一个模型刷新SOTA”，而是它们对统一架构、数据引擎、闭环评测的坚持。具身智能在机器人产业里验证的方法论，会加速回流到汽车：让智能导航更像一个可靠的执行者，让智能座舱不止会聊天，更能把任务办成。

如果你正在做汽车软件、智能座舱或自动驾驶产品，不妨反过来问团队一个更尖锐的问题：我们是在优化某个模型的表现，还是在打造一个能持续自我改进的闭环系统？