🇨🇳 多目标追踪MOT夺冠：AI如何撑起智慧工地安全底座 - China

AI在中国建筑行业的应用：智慧工地•2025年12月16日•By 3L3C

多目标追踪在 MOT 国际竞赛夺冠的不止是算法，更是智慧工地安全监控走向“看得见过程”的关键拐点。看 AI 如何撑起建筑工地的新安全底座。

智慧工地多目标追踪建筑安全计算机视觉AI应用案例

Featured image for 多目标追踪MOT夺冠：AI如何撑起智慧工地安全底座

在很多大型建筑工地里，一块安全生产看板可能一天要更新三次数据，但真正影响事故的那些“瞬间”，往往发生在一两秒之内：工人扎堆在吊装区域、塔吊下方有人逗留、安全通道被物料占用、夜间高处作业没人系安全绳。这些肉眼难以及时察觉的细节，正在被一类技术悄悄接管——多目标追踪（MOT）。

2022 年，小视科技在国际多目标跟踪权威评测平台 MOT Challenge 上，凭借 MiniTrack 方案，一举拿下 MOTA、HOTA 等 8 项指标第一，超越谷歌、微软、Facebook、Amazon 等国际巨头。很多人把这当作计算机视觉领域的一条技术新闻，而我更愿意把它看成是：智慧工地安全监控技术成熟的一个关键信号。

这篇文章里，我想聊清楚三件事：

多目标追踪到底解决了智慧工地里的什么“老大难”？
小视科技这次在 MOT 上的技术突破，为什么对建筑企业有现实意义？
如果你在负责智慧工地或安全管理，现在可以如何有策略地用好这类 AI 能力？

一、多目标追踪：智慧工地的“数字安全员”

多目标追踪的价值，用一句话就能说明白：在一堆摄像头画面里，系统能持续“盯住”每一个人、每一辆车和关键设备，而不是只看见一堆互不相关的“框”。

在智慧工地场景里，这点极其关键，因为：

安全问题几乎都发生在“过程”中，而不是单帧画面
违规行为往往有持续性和轨迹特征，比如长时间滞留、反复闯入危险区
施工管理需要“谁、在什么时间、出现在什么地方”的完整链路

没有 MOT，工地摄像头就像“只能截图不会录像”的人：

只能告诉你“这一刻这里有人”
不能判断“是不是同一个人”“在这里停留多久”“是否多次违规”

有了稳定的多目标追踪，智慧工地就能做这几件事：

行为闭环识别
- 高处作业人员未系安全带，持续 X 秒触发预警
- 工人长时间逗留在起重设备回转半径内
- 夜间非作业时段有人在重点区域徘徊
风险趋势分析
- 某个出入口长期出现超员进出或无证人员混入
- 某个楼层经常出现人员聚集、吸烟、打闹行为
管理责任可追溯
- 某次事故前 10 分钟，关键人员轨迹完整还原
- 结合门禁和考勤系统，确认责任班组与管理人

说白了，MOT 是把传统“看监控”的人，替换成一套可量化、可复制、不会疲劳的“数字安全员”，这就是它在智慧工地里的根本意义。

二、小视科技为何能在 MOT 国际赛场“杀出重围”？

MOT Challenge 一直被视作多目标跟踪领域的“高手局”。阿德莱德大学、苏黎世联邦理工、达姆施塔特工业大学等顶级学术机构发起，全球 100 多家机构参与，谷歌、微软、Meta、Amazon 都在榜单上拼算法。

在这样一个赛场上，小视科技拿下 8 项指标第一，核心的 MOTA、HOTA 也都是第一，这说明两件事：

算法精度在全球范围内属于第一梯队
- MOTA（Multiple Object Tracking Accuracy）衡量整体跟踪准确度，包括漏检、误检、ID 切换等
- HOTA（Higher Order Tracking Accuracy）更强调检测与关联的综合表现
在复杂场景下的“稳”做得很好
工地环境的复杂性，和 MOT 比赛里的真实视频非常像：遮挡多、光线复杂、目标密集、运动轨迹杂乱。能在 MOT 拿高分，意味着算法在这类“脏数据”“难场景”下依然能稳住。

smooth-association：为混乱场景而生的改进

小视科技在经典的 tracking-by-detection 框架上，提出了 smooth-association 方法，本质上是把“匹配”和“关联”做得更聪明、更有弹性。

简单理解这两点：

不再迷信检测器的“一次判断”
传统方法常用一个固定阈值决定“这是不是同一个人”。一旦检测器在光线差、遮挡多的情况下抖了一下，就容易出现 ID 跳变、丢失轨迹。
引入时序视角，做“多级动态匹配”
smooth-association 会看一段时间内目标的变化趋势，而不是单帧结果：
- 检测结果稳定时，严格匹配，减少误关联
- 检测结果波动大时，适当放宽阈值，并融入运动轨迹、外观特征等多种信息

效果就是：

在人多、目标小、遮挡严重的情况下，仍能保持 ID 一致
追踪轨迹更连贯，错误告警更少

这对智慧工地有直接价值：复杂场景不再是算法的“死穴”，比如：

浓尘天气、夜间施工、背光区域的摄像头画面
电梯井、脚手架迷宫、钢筋堆场这类“遮挡重灾区”

三、从社区到工地：多目标追踪场景迁移的“可行性证明”

很多建筑企业担心的一点是：

“竞赛冠军算法，能不能真正在工地跑起来？”

看小视科技过去几年的落地场景，其实已经给出了一个很现实的答案：能落地，而且已经在类似复杂场景里跑了多年。

1. 智慧社区：复杂生活场景的实战检验

在江苏、重庆、辽宁等地的智慧社区里，小视的多目标追踪能力已经被用在：

高空抛物识别
人员聚集识别
车辆违停检测
消防通道占用识别
遛狗未牵绳识别

这些任务对算法鲁棒性要求非常高：

早晚光照变化剧烈
电动车、行人、小孩、宠物混在一起
监控角度种类多、遮挡严重

能在这种场景跑得稳，就意味着迁移到工地——同样是人员密集、多干扰、强光与背光交替的环境——是有充分把握的。

2. 智慧校园、智慧园区：多角色、多规则的管理场景

在 300 余所学校中，小视系统支持：

学生奔跑、打架行为识别
人群聚集识别
闯入危险区告警

在沈阳浑南区智慧园区里，又承担：

智能考勤、智能防疫
智能安防与就餐行为监管
违停、经营占道、共享单车乱停识别

这些都是典型的“复杂规则 + 多主体 + 持续追踪”场景，逻辑上与智慧工地有很高相似度：

工地里的“学生”可以看成不同班组工人
校园/园区的危险区域，对应工地的起重臂旋转半径、高空边缘等
智能考勤与闸机管控，对应工人实名制进出与分区管理

这意味着，多目标追踪算法已经通过了多个类工地场景的“预演”，不是从零开始在工地里试错。

四、智慧工地具体能怎么用好 MOT？

如果你在推动智慧工地项目，或者负责安全生产，这一节可以直接当作“应用清单”来看。

1. 安全监控：从“看见”到“看懂”

多目标追踪在安全监控上的核心价值，是把“画面”变成“结构化数据 + 行为事件”。可以落地的功能包括：

高处作业监管
- 追踪高处作业人员的行动路径，识别是否全程在安全区域内活动
- 跨越安全护栏、长时间靠近边缘自动告警
吊装与塔吊作业防护
- 持续追踪吊钩下方、回转半径内人员，出现人员滞留立即预警
- 结合车辆追踪，识别塔吊回转区域内违规行驶的机械车辆
危险区域入侵
- 将电梯井口、洞口、深基坑划定为危险区
- 任何人员进入、停留时间超过阈值，自动上报

这些能力的前提都是：系统能可靠地把“这个人”从 A 摄像头一路跟到 B 摄像头，而不是每次当成一个新目标。

2. 施工组织与劳务管理：数据化调度

MOT 不是只能做安全，它同时也是非常好的“生产数据采集器”。

人员分布热力图
- 统计各楼层、各作业区不同时段人员数量
- 识别长期“空转”区域或超员区域，辅助调整施工组织
班组作业时长与轨迹
- 基于实名制与追踪结果，获取真实在场时长和作业区域
- 为劳务结算、工程量核对提供佐证
关键通道与设备利用率
- 追踪物料运输车辆、升降机使用频次与排队情况
- 为临时道路、垂直运输设备的优化提供依据

这些本来需要大量人力“蹲点统计”的工作，现在可以在 MOT 的基础上自动生成报表，智慧工地真正有了可运营的“行为数据资产”。

3. 与 BIM、物联网的协同

在“AI 在中国建筑行业的应用：智慧工地”这个大命题下，多目标追踪只是其中一个模块，但它是把“人和物的动态”引入数字世界的关键环节。

与 BIM 模型 结合：
- 把人的实时位置映射到 BIM 三维模型里，看到“谁在三维空间的哪个构件附近作业”
- 发现某些构件长期未有人作业，辅助进度偏差分析
与 物联网传感器 结合：
- 当塔吊风速传感器报警时，检查是否仍有人员在塔吊附近停留
- 当深基坑变形超限时，优先清空基坑内人员，系统实时追踪疏散情况

MOT 是把这些系统“串”在一起的粘合剂，让安全监控不再是孤立系统，而是融入整个数字施工管理闭环。

五、对建筑企业的现实建议：怎么落地、怎么选型？

最后说点更务实的。如果你正在规划或升级智慧工地系统，可以参考这几点：

1. 把“多目标追踪能力”写进技术指标

很多招标文件只写“支持人员检测、行为识别”，但没明确：

是否支持跨摄像机持续跟踪
ID 切换率、轨迹完整率的要求

建议在技术指标里，明确写出：

支持多目标持续追踪，提供轨迹 ID
在遮挡、逆光、小目标场景下有稳定表现（可要求提供实测视频）
提供典型安全事件的基于轨迹的规则配置能力

2. 要求提供“类工地实战案例”而非只看竞赛成绩

MOT 冠军是加分项，但别把它当全部。更关键的是：

是否有在社区、园区、校园等复杂场景大规模落地的经验
是否有在建筑或市政工地真实部署的案例
是否能在你的工地环境下做一段时间试运行

从小视科技的路径可以看到，一个成熟供应商往往是：先在城市治理、园区、校园等场景打磨，引擎稳定后再迁移到工地这种高风险场景。

3. 提前规划算力与网络，别让算法“跑不起来”

多目标追踪是实时算法，对算力和网络有要求：

高分辨率多路摄像头 + 实时追踪，需要边缘侧具备 GPU 或高性能 NPU
工地网络环境复杂，尽量保障关键摄像头的数据传输质量

所以在项目前期，就应该让技术团队或集成商把：

算力规划（每路视频需要多少算力、多少路）
部署架构（前端智能 vs 边缘计算网关 vs 云端）讲清楚，而不是后期再被动加设备。

尾声：智慧工地，需要更多“看得见过程”的技术

中国建筑业这两年在数字化上跑得很快，从 BIM、CIM 到物联网、工业互联网，但安全生产这一块，很多工地还停留在“事后复盘”的阶段：出事后调监控、查责任。

多目标追踪技术在 MOT Challenge 上的突破，只是一个节点，它真正的价值在于：让工地安全管理从“事后录像”走向“事中干预”和“事前预警”。当每一个人、每一台车、每一件关键设备都被准确、稳定地追踪时，安全就不再是一堆散落的摄像头，而是一张有逻辑、有记忆的“安全网络”。

接下来，谁能把这张网络织得更细、更稳，谁就能在智慧工地的竞争中真正拉开差距。对愿意在安全上投入、在技术选型上认真对待的建筑企业来说，现在是一个不错的起点。