🇨🇳 从小米MiMo-Embodied到智慧工地：让塔吊和无人车用同一个大脑 - China

AI在中国建筑行业的应用：智慧工地•2025年12月16日•By 3L3C

小米开源统一具身与自动驾驶模型，为智慧工地提供“统一大脑”的现实路径：串联塔吊、AGV、机器人与BIM的下一代方案。

智慧工地建筑行业数字化具身智能自动驾驶建筑机器人BIM协同

Featured image for 从小米MiMo-Embodied到智慧工地：让塔吊和无人车用同一个大脑

从自动驾驶到塔吊操作：智能体正在“串联”工地所有设备

2025 年，很多施工企业已经在用 AI 做安全帽识别、塔吊防碰撞、进度看板，但一个常见的反馈是：“系统很多，数据很多，就是不聪明。”

小米最新开源的统一具身与自动驾驶模型 MiMo-Embodied，给了一个完全不同的思路——不是给每台设备配一个小模型，而是让“抓起一块砖”和“开动一辆车”，都用同一个大脑来理解世界和做决策。

这篇文章会做三件事：

用非学术的语言讲清楚：MiMo-Embodied 到底牛在哪儿；
结合智慧工地场景，拆解这类统一模型能具体帮施工企业做什么；
给出建筑企业今天就能行动的三个落地方向。

如果你在负责智慧工地、BIM 协同、施工机器人或工地无人车，这篇可以当成一个“下一代方案”的参考。

1. 小米 MiMo-Embodied 到底做对了什么？

MiMo-Embodied 用一套模型，同时搞定 17 项具身任务和 12 项自动驾驶任务，而且在大多数指标上排第一。

这句话拆开看：

“具身任务”：像机器人抓取物体、理解空间位置、规划下一步动作；
“自动驾驶任务”：像识别车辆行人、预测交通参与者行为、规划车辆行驶路线；
“一套模型”：不是两个系统拼在一起，而是真正在同一框架下统一建模和训练。

核心能力可以概括成三块：

可供性理解（Affordance）
看见一把扳手，它知道哪里能抓；看到一个货架，它知道哪些地方可以放料。对应到工地，就是：
- 识别构件、托盘、脚手架上“能放”“不能放”的区域；
- 指出“吊绳应该挂在哪里”“机械臂应当从哪儿下手”。
任务规划
给它一个场景和目标，它能推理出下一步怎么做。比如：
- 看一段施工视频，推断下一个施工工序；
- 在多种候选动作中，选出符合规范和安全要求的那一个。
空间理解与动态场景分析
不只看清“有什么”，还能搞清“在哪儿”“会往哪儿动”。
- 室内：定位物体、判断相对位置、进行三维空间推理；
- 道路：识别车、人、标志，预测下一步行为，并做驾驶决策。

这三块能力组合在一起，基本就勾勒出一个“通用现场智能体”的雏形 —— 不管是在客厅里抓杯子，还是在十字路口开车，它的思考逻辑是一致的。

这对建筑业很关键，因为工地本质上就是一个高度动态的三维空间场景，既有室内机器人，又有室外车辆。

2. 四阶段训练框架，对智慧工地意味着什么？

MiMo-Embodied 采用了一个四阶段的训练路线：先具身、再驾驶、再推理、再强化。这套路线，其实非常适合作为“智慧工地统一大脑”的参考模板。

2.1 第一阶段：先学“人怎么干活”——具身智能

模型首先在具身数据上训练：

看物体结构，识别哪儿能抓、哪儿能放；
理解空间关系，比如“上方”“后方”“左侧一米”；
根据当前步骤，推断下一步动作。

如果把这一步迁移到工地：

教模型理解脚手架、模板体系、型钢、构件、托盘等“施工语境”；
通过施工记录视频，让模型学会“绑钢筋之后是什么工序”“浇筑完要做什么检查”；
让塔吊、机械臂、搬运机器人先具备“基本动作逻辑”。

简单说，就是先让 AI 懂“怎么干活”，而不是一上来就教它开车。

2.2 第二阶段：再学“怎么在工地里安全穿行”——自动驾驶

第二阶段，小米团队加入大量自动驾驶训练：

多视角相机画面和驾驶视频；
自动驾驶问答和关键目标坐标；
道路结构和交通规则知识。

对智慧工地，这一步可以类比为：

工地无人车/无人叉车/AGV 的导航与避障；
协同塔吊吊装、混凝土运输车进出、行人穿插的复杂工况；
在杂乱环境下，始终保持“安全优先”的路径规划能力。

这意味着，同一个模型既能指导机械臂抓取构件，又能驱动工地无人车穿过狭窄的通道，和塔吊、人工车辆“打配合”。

2.3 第三阶段：学会“把推理过程讲出来”——链式思维

第三阶段非常关键：模型不仅要做对，还要说清楚自己怎么想的。

训练方式是给出带有详细推理步骤的数据，让模型按以下思路回答：

观察场景 → 分析要素 → 构造候选方案 → 给出理由 → 输出结论

对施工方和总包单位，这一步的价值在于：

安全 AI 不再只是给出“危险”或“安全”，而是能解释：
- 哪些构件遮挡了视线；
- 哪条吊装路径风险高；
- 哪个工序存在交叉作业冲突；
便于安全员、总工审核和追责，也利于形成知识库和标准化作业指导。

智慧工地真正需要的，是“会解释的 AI”，而不是“黑箱评分器”。

2.4 第四阶段：用强化学习“抠细节”——从能用到好用

最后，小米团队用强化学习做微调：

多选题回答对才给奖励；
坐标预测和真实区域 IoU 越高，奖励越高；
推理回答必须符合指定格式。

放到工地，就是：

起吊点偏 20cm 和偏 2cm，不是一个安全等级，AI 要分得清；
无人车与坑槽距离 30cm 和 1m，建议动作应该不同；
质量巡检时，裂缝宽度、空鼓面积等细节要“抠得准”。

这一步把模型从“90 分可用”，打磨成“95 分能上工地”。

3. 把 MiMo-Embodied 思路搬到智慧工地，有哪些直接机会？

MiMo-Embodied 是开源的，这对建筑行业的含义很直接：不必从零造轮子，可以在成熟通用能力上，做工地定制。

3.1 多设备统一大脑：塔吊、AGV、机械臂用同一种“语言”协同

当前很多工地的典型问题是：

塔吊防碰撞一套系统；
无人车调度一套系统；
施工机器人路径规划再一套；
系统之间几乎不“说话”。

统一具身模型可以做的，是：

让所有设备共享同一套空间理解和任务规划能力；
通过 BIM 模型和现场感知数据，形成统一的“数字工地场景底座”；
不再由“各个子系统”各自规划，而是由一个统一大脑做协调。

你可以简单想象成：

BIM 管“知道哪块是墙、哪块是梁”，统一大模型管“知道谁该什么时候去干哪件事、走哪条路最安全”。

3.2 与 BIM 协同：统一建模理念天然契合建筑数字化

MiMo-Embodied 的核心思想就是 “用同一框架描述不同场景”，这一点和 BIM 思路高度一致：

BIM：用统一信息模型描述建筑全生命周期；
统一具身模型：用统一智能框架理解和决策不同场景（室内、道路、工地）。

在智慧工地里，可以形成这样的闭环：

BIM 提供结构、构件和工序信息；
现场摄像头、无人机、机器人提供实时视觉和位置数据；
统一大模型在 BIM 坐标系下进行空间理解、任务规划和安全评估；
决策结果再下发给塔吊、AGV、机器人等执行体。

这比“每个系统读取一遍 BIM、自顾自计算”更工程化，也更有利于后期扩展。

3.3 具身+驾驶能力，直接映射到三类工地场景

对照 MiMo-Embodied 的两大方向，工地的三类典型应用非常清晰：

施工机器人：焊接、喷涂、砌筑、抹灰机器人
- 具身能力用于：识别构件表面、判断作业面可达性、规划机械臂轨迹；
- 推理能力用于：根据质量标准调整动作顺序、判断是否需要返工。
工地车辆与无人运输系统
- 自动驾驶能力用于：在狭窄道路上安全通行、与塔吊吊装区避让；
- 行为预测用于：识别行人、塔吊吊物路径，提前减速或绕行。
安全与质量巡检机器人（地面或空中）
- 具身空间理解：在复杂脚手架和钢筋丛中穿行；
- 视觉+推理：发现安全隐患并给出解释，例如：
  
  “该区域存在高空坠物风险，原因是上方平台未设置踢脚板。”

统一模型的价值，在于这三类设备不是各自为战，而是共用一套“脑子”，在同一个世界观里协同。

3.4 开源降低门槛：中小施工企业也能“玩大模型”

过去，只有大厂和头部总包有能力做自己的 AI 平台。MiMo-Embodied 开源之后，格局会被改写：

本地研究院、高校团队可以基于开源模型做“建筑专版”；
解决方案商可以把统一大模型打包成 SaaS 或私有化部署方案；
中小施工企业按项目买服务，也能用上统一智能，而不是零散的小工具。

对建筑企业管理者而言，真正需要思考的不是“要不要上大模型”，而是“如何用统一大模型串起已有的所有 AI 应用”。

4. 建筑企业今天可以做的三件事

说到底，MiMo-Embodied 代表的是一种方向：从“点状智能”转向“统一智能”。 如果你在推动智慧工地建设，现在就可以着手三件事。

4.1 重新梳理：工地有哪些“具身任务”和“驾驶任务”可以统一？

先不谈模型，先盘点业务：

列出所有涉及“抓、放、搬、装”的任务（塔吊、机械臂、机器人、人工配合等）；
列出所有涉及“移动和避障”的任务（车辆、AGV、巡检机器人、人员流动）；
标注哪些任务彼此强相关，比如：
- 塔吊吊装 ↔ 无人车运输 ↔ 楼层机械臂装配；
- 夜间巡检机器人 ↔ 白天施工安全管理。

这个过程本身，就是在为未来的统一模型设计“课程表”。

4.2 做好数据底座：视频、BIM、传感器数据的统一坐标系

统一智能离不开统一数据底座，重点有三步：

保证所有关键摄像头、无人机、机器人位姿可被映射到 BIM 坐标系；
关键作业（吊装、运输、装配）的全过程视频和传感器数据保存完整；
建立基本的标注规范：
- 安全事件标签（高处坠落、物体打击、起重伤害等）；
- 质量缺陷标签（裂缝、渗漏、空鼓等）；
- 作业步骤标签（关键工序节点）。

这些数据一旦规范，未来接入像 MiMo-Embodied 这样的统一模型，就是顺势而为。

4.3 选择一个“小而关键”的场景做试点

统一智能不必一开始就“包打天下”，更现实的做法是：

选一个高风险+高重复+有数据基础的场景做 PoC；
比如：钢结构吊装、预制构件吊装、隧道施工车辆组织；
明确一个简单指标：
- 起吊等待时间减少多少；
- 临边防护违规次数下降多少；
- 无人车空驶率降低多少。

有了第一个可量化的成功案例，再逐步扩展到更多工地、更多设备。

5. 智慧工地的下一步：设备不再是“工具”，而是“协同的智能体”

MiMo-Embodied 做的事，表面上是把“抓取物体”和“自动驾驶”放到一套模型里，本质上是在证明一件事：

机器人和车，本可以共用一个大脑。

对建筑业来说，对应的一句话是：

塔吊、AGV、机械臂、巡检机器人、甚至穿戴式设备，本可以共用一个大脑。

这和“AI在中国建筑行业的应用：智慧工地”这个系列一直在强调的方向完全一致：

不再把安全监控、BIM 协同、进度管理、质量控制当成孤岛；
而是把它们视为同一个“工地智能体”的不同感官和手脚。

现在，小米已经把一套成熟的通用具身+自动驾驶模型开源出来，下一步轮到建筑行业自己回答：我们敢不敢、愿不愿把工地当成一个整体智能系统来设计？

如果答案是“敢”，那么从今天开始梳理任务、打好数据底座、选择试点场景，就是非常务实的第一步。

未来的智慧工地，很可能会出现这样的场景：

塔吊起升前，统一大脑已经为无人车规划好安全等待区；
机器人施工路径自动避开高风险区域并给出解释；
安全员打开手机，看见的不是一堆报警框，而是一套连贯的、可追溯的推理链条。

那时，我们再回头看 MiMo-Embodied，可能会发现：

这只是建筑业统一智能时代的一个起点，而不是终点。