从小米MiMo-Embodied到智慧工地:让塔吊和无人车用同一个大脑

AI在中国建筑行业的应用:智慧工地By 3L3C

小米开源统一具身与自动驾驶模型,为智慧工地提供“统一大脑”的现实路径:串联塔吊、AGV、机器人与BIM的下一代方案。

智慧工地建筑行业数字化具身智能自动驾驶建筑机器人BIM协同
Share:

Featured image for 从小米MiMo-Embodied到智慧工地:让塔吊和无人车用同一个大脑

从自动驾驶到塔吊操作:智能体正在“串联”工地所有设备

2025 年,很多施工企业已经在用 AI 做安全帽识别、塔吊防碰撞、进度看板,但一个常见的反馈是:“系统很多,数据很多,就是不聪明。”

小米最新开源的统一具身与自动驾驶模型 MiMo-Embodied,给了一个完全不同的思路——不是给每台设备配一个小模型,而是让“抓起一块砖”和“开动一辆车”,都用同一个大脑来理解世界和做决策。

这篇文章会做三件事:

  • 用非学术的语言讲清楚:MiMo-Embodied 到底牛在哪儿;
  • 结合智慧工地场景,拆解这类统一模型能具体帮施工企业做什么;
  • 给出建筑企业今天就能行动的三个落地方向。

如果你在负责智慧工地、BIM 协同、施工机器人或工地无人车,这篇可以当成一个“下一代方案”的参考。


1. 小米 MiMo-Embodied 到底做对了什么?

MiMo-Embodied 用一套模型,同时搞定 17 项具身任务和 12 项自动驾驶任务,而且在大多数指标上排第一。

这句话拆开看:

  • “具身任务”:像机器人抓取物体、理解空间位置、规划下一步动作;
  • “自动驾驶任务”:像识别车辆行人、预测交通参与者行为、规划车辆行驶路线;
  • “一套模型”:不是两个系统拼在一起,而是真正在同一框架下统一建模和训练。

核心能力可以概括成三块:

  1. 可供性理解(Affordance)
    看见一把扳手,它知道哪里能抓;看到一个货架,它知道哪些地方可以放料。对应到工地,就是:

    • 识别构件、托盘、脚手架上“能放”“不能放”的区域;
    • 指出“吊绳应该挂在哪里”“机械臂应当从哪儿下手”。
  2. 任务规划
    给它一个场景和目标,它能推理出下一步怎么做。比如:

    • 看一段施工视频,推断下一个施工工序;
    • 在多种候选动作中,选出符合规范和安全要求的那一个。
  3. 空间理解与动态场景分析
    不只看清“有什么”,还能搞清“在哪儿”“会往哪儿动”。

    • 室内:定位物体、判断相对位置、进行三维空间推理;
    • 道路:识别车、人、标志,预测下一步行为,并做驾驶决策。

这三块能力组合在一起,基本就勾勒出一个“通用现场智能体”的雏形 —— 不管是在客厅里抓杯子,还是在十字路口开车,它的思考逻辑是一致的。

这对建筑业很关键,因为工地本质上就是一个高度动态的三维空间场景,既有室内机器人,又有室外车辆。


2. 四阶段训练框架,对智慧工地意味着什么?

MiMo-Embodied 采用了一个四阶段的训练路线:先具身、再驾驶、再推理、再强化。这套路线,其实非常适合作为“智慧工地统一大脑”的参考模板。

2.1 第一阶段:先学“人怎么干活”——具身智能

模型首先在具身数据上训练:

  • 看物体结构,识别哪儿能抓、哪儿能放;
  • 理解空间关系,比如“上方”“后方”“左侧一米”;
  • 根据当前步骤,推断下一步动作。

如果把这一步迁移到工地:

  • 教模型理解脚手架、模板体系、型钢、构件、托盘等“施工语境”;
  • 通过施工记录视频,让模型学会“绑钢筋之后是什么工序”“浇筑完要做什么检查”;
  • 让塔吊、机械臂、搬运机器人先具备“基本动作逻辑”。

简单说,就是先让 AI 懂“怎么干活”,而不是一上来就教它开车。

2.2 第二阶段:再学“怎么在工地里安全穿行”——自动驾驶

第二阶段,小米团队加入大量自动驾驶训练:

  • 多视角相机画面和驾驶视频;
  • 自动驾驶问答和关键目标坐标;
  • 道路结构和交通规则知识。

对智慧工地,这一步可以类比为:

  • 工地无人车/无人叉车/AGV 的导航与避障
  • 协同塔吊吊装、混凝土运输车进出、行人穿插的复杂工况;
  • 在杂乱环境下,始终保持“安全优先”的路径规划能力。

这意味着,同一个模型既能指导机械臂抓取构件,又能驱动工地无人车穿过狭窄的通道,和塔吊、人工车辆“打配合”。

2.3 第三阶段:学会“把推理过程讲出来”——链式思维

第三阶段非常关键:模型不仅要做对,还要说清楚自己怎么想的。

训练方式是给出带有详细推理步骤的数据,让模型按以下思路回答:

观察场景 → 分析要素 → 构造候选方案 → 给出理由 → 输出结论

对施工方和总包单位,这一步的价值在于:

  • 安全 AI 不再只是给出“危险”或“安全”,而是能解释:
    • 哪些构件遮挡了视线;
    • 哪条吊装路径风险高;
    • 哪个工序存在交叉作业冲突;
  • 便于安全员、总工审核和追责,也利于形成知识库和标准化作业指导。

智慧工地真正需要的,是“会解释的 AI”,而不是“黑箱评分器”。

2.4 第四阶段:用强化学习“抠细节”——从能用到好用

最后,小米团队用强化学习做微调:

  • 多选题回答对才给奖励;
  • 坐标预测和真实区域 IoU 越高,奖励越高;
  • 推理回答必须符合指定格式。

放到工地,就是:

  • 起吊点偏 20cm 和偏 2cm,不是一个安全等级,AI 要分得清;
  • 无人车与坑槽距离 30cm 和 1m,建议动作应该不同;
  • 质量巡检时,裂缝宽度、空鼓面积等细节要“抠得准”。

这一步把模型从“90 分可用”,打磨成“95 分能上工地”。


3. 把 MiMo-Embodied 思路搬到智慧工地,有哪些直接机会?

MiMo-Embodied 是开源的,这对建筑行业的含义很直接:不必从零造轮子,可以在成熟通用能力上,做工地定制。

3.1 多设备统一大脑:塔吊、AGV、机械臂用同一种“语言”协同

当前很多工地的典型问题是:

  • 塔吊防碰撞一套系统;
  • 无人车调度一套系统;
  • 施工机器人路径规划再一套;
  • 系统之间几乎不“说话”。

统一具身模型可以做的,是:

  • 让所有设备共享同一套空间理解和任务规划能力;
  • 通过 BIM 模型和现场感知数据,形成统一的“数字工地场景底座”;
  • 不再由“各个子系统”各自规划,而是由一个统一大脑做协调。

你可以简单想象成:

BIM 管“知道哪块是墙、哪块是梁”, 统一大模型管“知道谁该什么时候去干哪件事、走哪条路最安全”。

3.2 与 BIM 协同:统一建模理念天然契合建筑数字化

MiMo-Embodied 的核心思想就是 “用同一框架描述不同场景”,这一点和 BIM 思路高度一致:

  • BIM:用统一信息模型描述建筑全生命周期;
  • 统一具身模型:用统一智能框架理解和决策不同场景(室内、道路、工地)。

在智慧工地里,可以形成这样的闭环:

  1. BIM 提供结构、构件和工序信息;
  2. 现场摄像头、无人机、机器人提供实时视觉和位置数据;
  3. 统一大模型在 BIM 坐标系下进行空间理解、任务规划和安全评估;
  4. 决策结果再下发给塔吊、AGV、机器人等执行体。

这比“每个系统读取一遍 BIM、自顾自计算”更工程化,也更有利于后期扩展。

3.3 具身+驾驶能力,直接映射到三类工地场景

对照 MiMo-Embodied 的两大方向,工地的三类典型应用非常清晰:

  1. 施工机器人:焊接、喷涂、砌筑、抹灰机器人

    • 具身能力用于:识别构件表面、判断作业面可达性、规划机械臂轨迹;
    • 推理能力用于:根据质量标准调整动作顺序、判断是否需要返工。
  2. 工地车辆与无人运输系统

    • 自动驾驶能力用于:在狭窄道路上安全通行、与塔吊吊装区避让;
    • 行为预测用于:识别行人、塔吊吊物路径,提前减速或绕行。
  3. 安全与质量巡检机器人(地面或空中)

    • 具身空间理解:在复杂脚手架和钢筋丛中穿行;
    • 视觉+推理:发现安全隐患并给出解释,例如:

      “该区域存在高空坠物风险,原因是上方平台未设置踢脚板。”

统一模型的价值,在于这三类设备不是各自为战,而是共用一套“脑子”,在同一个世界观里协同。

3.4 开源降低门槛:中小施工企业也能“玩大模型”

过去,只有大厂和头部总包有能力做自己的 AI 平台。MiMo-Embodied 开源之后,格局会被改写:

  • 本地研究院、高校团队可以基于开源模型做“建筑专版”;
  • 解决方案商可以把统一大模型打包成 SaaS 或私有化部署方案;
  • 中小施工企业按项目买服务,也能用上统一智能,而不是零散的小工具。

对建筑企业管理者而言,真正需要思考的不是“要不要上大模型”,而是“如何用统一大模型串起已有的所有 AI 应用”。


4. 建筑企业今天可以做的三件事

说到底,MiMo-Embodied 代表的是一种方向:从“点状智能”转向“统一智能”。 如果你在推动智慧工地建设,现在就可以着手三件事。

4.1 重新梳理:工地有哪些“具身任务”和“驾驶任务”可以统一?

先不谈模型,先盘点业务:

  • 列出所有涉及“抓、放、搬、装”的任务(塔吊、机械臂、机器人、人工配合等);
  • 列出所有涉及“移动和避障”的任务(车辆、AGV、巡检机器人、人员流动);
  • 标注哪些任务彼此强相关,比如:
    • 塔吊吊装 ↔ 无人车运输 ↔ 楼层机械臂装配;
    • 夜间巡检机器人 ↔ 白天施工安全管理。

这个过程本身,就是在为未来的统一模型设计“课程表”。

4.2 做好数据底座:视频、BIM、传感器数据的统一坐标系

统一智能离不开统一数据底座,重点有三步:

  1. 保证所有关键摄像头、无人机、机器人位姿可被映射到 BIM 坐标系
  2. 关键作业(吊装、运输、装配)的全过程视频和传感器数据保存完整;
  3. 建立基本的标注规范:
    • 安全事件标签(高处坠落、物体打击、起重伤害等);
    • 质量缺陷标签(裂缝、渗漏、空鼓等);
    • 作业步骤标签(关键工序节点)。

这些数据一旦规范,未来接入像 MiMo-Embodied 这样的统一模型,就是顺势而为。

4.3 选择一个“小而关键”的场景做试点

统一智能不必一开始就“包打天下”,更现实的做法是:

  • 选一个高风险+高重复+有数据基础的场景做 PoC;
  • 比如:钢结构吊装、预制构件吊装、隧道施工车辆组织;
  • 明确一个简单指标:
    • 起吊等待时间减少多少;
    • 临边防护违规次数下降多少;
    • 无人车空驶率降低多少。

有了第一个可量化的成功案例,再逐步扩展到更多工地、更多设备。


5. 智慧工地的下一步:设备不再是“工具”,而是“协同的智能体”

MiMo-Embodied 做的事,表面上是把“抓取物体”和“自动驾驶”放到一套模型里,本质上是在证明一件事:

机器人和车,本可以共用一个大脑。

对建筑业来说,对应的一句话是:

塔吊、AGV、机械臂、巡检机器人、甚至穿戴式设备,本可以共用一个大脑。

这和“AI在中国建筑行业的应用:智慧工地”这个系列一直在强调的方向完全一致:

  • 不再把安全监控、BIM 协同、进度管理、质量控制当成孤岛;
  • 而是把它们视为同一个“工地智能体”的不同感官和手脚。

现在,小米已经把一套成熟的通用具身+自动驾驶模型开源出来,下一步轮到建筑行业自己回答:我们敢不敢、愿不愿把工地当成一个整体智能系统来设计?

如果答案是“敢”,那么从今天开始梳理任务、打好数据底座、选择试点场景,就是非常务实的第一步。

未来的智慧工地,很可能会出现这样的场景:

  • 塔吊起升前,统一大脑已经为无人车规划好安全等待区;
  • 机器人施工路径自动避开高风险区域并给出解释;
  • 安全员打开手机,看见的不是一堆报警框,而是一套连贯的、可追溯的推理链条。

那时,我们再回头看 MiMo-Embodied,可能会发现:

这只是建筑业统一智能时代的一个起点,而不是终点。