小米开源统一具身与自动驾驶模型,为智慧工地提供“统一大脑”的现实路径:串联塔吊、AGV、机器人与BIM的下一代方案。

从自动驾驶到塔吊操作:智能体正在“串联”工地所有设备
2025 年,很多施工企业已经在用 AI 做安全帽识别、塔吊防碰撞、进度看板,但一个常见的反馈是:“系统很多,数据很多,就是不聪明。”
小米最新开源的统一具身与自动驾驶模型 MiMo-Embodied,给了一个完全不同的思路——不是给每台设备配一个小模型,而是让“抓起一块砖”和“开动一辆车”,都用同一个大脑来理解世界和做决策。
这篇文章会做三件事:
- 用非学术的语言讲清楚:MiMo-Embodied 到底牛在哪儿;
- 结合智慧工地场景,拆解这类统一模型能具体帮施工企业做什么;
- 给出建筑企业今天就能行动的三个落地方向。
如果你在负责智慧工地、BIM 协同、施工机器人或工地无人车,这篇可以当成一个“下一代方案”的参考。
1. 小米 MiMo-Embodied 到底做对了什么?
MiMo-Embodied 用一套模型,同时搞定 17 项具身任务和 12 项自动驾驶任务,而且在大多数指标上排第一。
这句话拆开看:
- “具身任务”:像机器人抓取物体、理解空间位置、规划下一步动作;
- “自动驾驶任务”:像识别车辆行人、预测交通参与者行为、规划车辆行驶路线;
- “一套模型”:不是两个系统拼在一起,而是真正在同一框架下统一建模和训练。
核心能力可以概括成三块:
-
可供性理解(Affordance)
看见一把扳手,它知道哪里能抓;看到一个货架,它知道哪些地方可以放料。对应到工地,就是:- 识别构件、托盘、脚手架上“能放”“不能放”的区域;
- 指出“吊绳应该挂在哪里”“机械臂应当从哪儿下手”。
-
任务规划
给它一个场景和目标,它能推理出下一步怎么做。比如:- 看一段施工视频,推断下一个施工工序;
- 在多种候选动作中,选出符合规范和安全要求的那一个。
-
空间理解与动态场景分析
不只看清“有什么”,还能搞清“在哪儿”“会往哪儿动”。- 室内:定位物体、判断相对位置、进行三维空间推理;
- 道路:识别车、人、标志,预测下一步行为,并做驾驶决策。
这三块能力组合在一起,基本就勾勒出一个“通用现场智能体”的雏形 —— 不管是在客厅里抓杯子,还是在十字路口开车,它的思考逻辑是一致的。
这对建筑业很关键,因为工地本质上就是一个高度动态的三维空间场景,既有室内机器人,又有室外车辆。
2. 四阶段训练框架,对智慧工地意味着什么?
MiMo-Embodied 采用了一个四阶段的训练路线:先具身、再驾驶、再推理、再强化。这套路线,其实非常适合作为“智慧工地统一大脑”的参考模板。
2.1 第一阶段:先学“人怎么干活”——具身智能
模型首先在具身数据上训练:
- 看物体结构,识别哪儿能抓、哪儿能放;
- 理解空间关系,比如“上方”“后方”“左侧一米”;
- 根据当前步骤,推断下一步动作。
如果把这一步迁移到工地:
- 教模型理解脚手架、模板体系、型钢、构件、托盘等“施工语境”;
- 通过施工记录视频,让模型学会“绑钢筋之后是什么工序”“浇筑完要做什么检查”;
- 让塔吊、机械臂、搬运机器人先具备“基本动作逻辑”。
简单说,就是先让 AI 懂“怎么干活”,而不是一上来就教它开车。
2.2 第二阶段:再学“怎么在工地里安全穿行”——自动驾驶
第二阶段,小米团队加入大量自动驾驶训练:
- 多视角相机画面和驾驶视频;
- 自动驾驶问答和关键目标坐标;
- 道路结构和交通规则知识。
对智慧工地,这一步可以类比为:
- 工地无人车/无人叉车/AGV 的导航与避障;
- 协同塔吊吊装、混凝土运输车进出、行人穿插的复杂工况;
- 在杂乱环境下,始终保持“安全优先”的路径规划能力。
这意味着,同一个模型既能指导机械臂抓取构件,又能驱动工地无人车穿过狭窄的通道,和塔吊、人工车辆“打配合”。
2.3 第三阶段:学会“把推理过程讲出来”——链式思维
第三阶段非常关键:模型不仅要做对,还要说清楚自己怎么想的。
训练方式是给出带有详细推理步骤的数据,让模型按以下思路回答:
观察场景 → 分析要素 → 构造候选方案 → 给出理由 → 输出结论
对施工方和总包单位,这一步的价值在于:
- 安全 AI 不再只是给出“危险”或“安全”,而是能解释:
- 哪些构件遮挡了视线;
- 哪条吊装路径风险高;
- 哪个工序存在交叉作业冲突;
- 便于安全员、总工审核和追责,也利于形成知识库和标准化作业指导。
智慧工地真正需要的,是“会解释的 AI”,而不是“黑箱评分器”。
2.4 第四阶段:用强化学习“抠细节”——从能用到好用
最后,小米团队用强化学习做微调:
- 多选题回答对才给奖励;
- 坐标预测和真实区域 IoU 越高,奖励越高;
- 推理回答必须符合指定格式。
放到工地,就是:
- 起吊点偏 20cm 和偏 2cm,不是一个安全等级,AI 要分得清;
- 无人车与坑槽距离 30cm 和 1m,建议动作应该不同;
- 质量巡检时,裂缝宽度、空鼓面积等细节要“抠得准”。
这一步把模型从“90 分可用”,打磨成“95 分能上工地”。
3. 把 MiMo-Embodied 思路搬到智慧工地,有哪些直接机会?
MiMo-Embodied 是开源的,这对建筑行业的含义很直接:不必从零造轮子,可以在成熟通用能力上,做工地定制。
3.1 多设备统一大脑:塔吊、AGV、机械臂用同一种“语言”协同
当前很多工地的典型问题是:
- 塔吊防碰撞一套系统;
- 无人车调度一套系统;
- 施工机器人路径规划再一套;
- 系统之间几乎不“说话”。
统一具身模型可以做的,是:
- 让所有设备共享同一套空间理解和任务规划能力;
- 通过 BIM 模型和现场感知数据,形成统一的“数字工地场景底座”;
- 不再由“各个子系统”各自规划,而是由一个统一大脑做协调。
你可以简单想象成:
BIM 管“知道哪块是墙、哪块是梁”, 统一大模型管“知道谁该什么时候去干哪件事、走哪条路最安全”。
3.2 与 BIM 协同:统一建模理念天然契合建筑数字化
MiMo-Embodied 的核心思想就是 “用同一框架描述不同场景”,这一点和 BIM 思路高度一致:
- BIM:用统一信息模型描述建筑全生命周期;
- 统一具身模型:用统一智能框架理解和决策不同场景(室内、道路、工地)。
在智慧工地里,可以形成这样的闭环:
- BIM 提供结构、构件和工序信息;
- 现场摄像头、无人机、机器人提供实时视觉和位置数据;
- 统一大模型在 BIM 坐标系下进行空间理解、任务规划和安全评估;
- 决策结果再下发给塔吊、AGV、机器人等执行体。
这比“每个系统读取一遍 BIM、自顾自计算”更工程化,也更有利于后期扩展。
3.3 具身+驾驶能力,直接映射到三类工地场景
对照 MiMo-Embodied 的两大方向,工地的三类典型应用非常清晰:
-
施工机器人:焊接、喷涂、砌筑、抹灰机器人
- 具身能力用于:识别构件表面、判断作业面可达性、规划机械臂轨迹;
- 推理能力用于:根据质量标准调整动作顺序、判断是否需要返工。
-
工地车辆与无人运输系统
- 自动驾驶能力用于:在狭窄道路上安全通行、与塔吊吊装区避让;
- 行为预测用于:识别行人、塔吊吊物路径,提前减速或绕行。
-
安全与质量巡检机器人(地面或空中)
- 具身空间理解:在复杂脚手架和钢筋丛中穿行;
- 视觉+推理:发现安全隐患并给出解释,例如:
“该区域存在高空坠物风险,原因是上方平台未设置踢脚板。”
统一模型的价值,在于这三类设备不是各自为战,而是共用一套“脑子”,在同一个世界观里协同。
3.4 开源降低门槛:中小施工企业也能“玩大模型”
过去,只有大厂和头部总包有能力做自己的 AI 平台。MiMo-Embodied 开源之后,格局会被改写:
- 本地研究院、高校团队可以基于开源模型做“建筑专版”;
- 解决方案商可以把统一大模型打包成 SaaS 或私有化部署方案;
- 中小施工企业按项目买服务,也能用上统一智能,而不是零散的小工具。
对建筑企业管理者而言,真正需要思考的不是“要不要上大模型”,而是“如何用统一大模型串起已有的所有 AI 应用”。
4. 建筑企业今天可以做的三件事
说到底,MiMo-Embodied 代表的是一种方向:从“点状智能”转向“统一智能”。 如果你在推动智慧工地建设,现在就可以着手三件事。
4.1 重新梳理:工地有哪些“具身任务”和“驾驶任务”可以统一?
先不谈模型,先盘点业务:
- 列出所有涉及“抓、放、搬、装”的任务(塔吊、机械臂、机器人、人工配合等);
- 列出所有涉及“移动和避障”的任务(车辆、AGV、巡检机器人、人员流动);
- 标注哪些任务彼此强相关,比如:
- 塔吊吊装 ↔ 无人车运输 ↔ 楼层机械臂装配;
- 夜间巡检机器人 ↔ 白天施工安全管理。
这个过程本身,就是在为未来的统一模型设计“课程表”。
4.2 做好数据底座:视频、BIM、传感器数据的统一坐标系
统一智能离不开统一数据底座,重点有三步:
- 保证所有关键摄像头、无人机、机器人位姿可被映射到 BIM 坐标系;
- 关键作业(吊装、运输、装配)的全过程视频和传感器数据保存完整;
- 建立基本的标注规范:
- 安全事件标签(高处坠落、物体打击、起重伤害等);
- 质量缺陷标签(裂缝、渗漏、空鼓等);
- 作业步骤标签(关键工序节点)。
这些数据一旦规范,未来接入像 MiMo-Embodied 这样的统一模型,就是顺势而为。
4.3 选择一个“小而关键”的场景做试点
统一智能不必一开始就“包打天下”,更现实的做法是:
- 选一个高风险+高重复+有数据基础的场景做 PoC;
- 比如:钢结构吊装、预制构件吊装、隧道施工车辆组织;
- 明确一个简单指标:
- 起吊等待时间减少多少;
- 临边防护违规次数下降多少;
- 无人车空驶率降低多少。
有了第一个可量化的成功案例,再逐步扩展到更多工地、更多设备。
5. 智慧工地的下一步:设备不再是“工具”,而是“协同的智能体”
MiMo-Embodied 做的事,表面上是把“抓取物体”和“自动驾驶”放到一套模型里,本质上是在证明一件事:
机器人和车,本可以共用一个大脑。
对建筑业来说,对应的一句话是:
塔吊、AGV、机械臂、巡检机器人、甚至穿戴式设备,本可以共用一个大脑。
这和“AI在中国建筑行业的应用:智慧工地”这个系列一直在强调的方向完全一致:
- 不再把安全监控、BIM 协同、进度管理、质量控制当成孤岛;
- 而是把它们视为同一个“工地智能体”的不同感官和手脚。
现在,小米已经把一套成熟的通用具身+自动驾驶模型开源出来,下一步轮到建筑行业自己回答:我们敢不敢、愿不愿把工地当成一个整体智能系统来设计?
如果答案是“敢”,那么从今天开始梳理任务、打好数据底座、选择试点场景,就是非常务实的第一步。
未来的智慧工地,很可能会出现这样的场景:
- 塔吊起升前,统一大脑已经为无人车规划好安全等待区;
- 机器人施工路径自动避开高风险区域并给出解释;
- 安全员打开手机,看见的不是一堆报警框,而是一套连贯的、可追溯的推理链条。
那时,我们再回头看 MiMo-Embodied,可能会发现:
这只是建筑业统一智能时代的一个起点,而不是终点。