多目标追踪在 MOT 国际竞赛夺冠的不止是算法,更是智慧工地安全监控走向“看得见过程”的关键拐点。看 AI 如何撑起建筑工地的新安全底座。

在很多大型建筑工地里,一块安全生产看板可能一天要更新三次数据,但真正影响事故的那些“瞬间”,往往发生在一两秒之内:工人扎堆在吊装区域、塔吊下方有人逗留、安全通道被物料占用、夜间高处作业没人系安全绳。这些肉眼难以及时察觉的细节,正在被一类技术悄悄接管——多目标追踪(MOT)。
2022 年,小视科技在国际多目标跟踪权威评测平台 MOT Challenge 上,凭借 MiniTrack 方案,一举拿下 MOTA、HOTA 等 8 项指标第一,超越谷歌、微软、Facebook、Amazon 等国际巨头。很多人把这当作计算机视觉领域的一条技术新闻,而我更愿意把它看成是:智慧工地安全监控技术成熟的一个关键信号。
这篇文章里,我想聊清楚三件事:
- 多目标追踪到底解决了智慧工地里的什么“老大难”?
- 小视科技这次在 MOT 上的技术突破,为什么对建筑企业有现实意义?
- 如果你在负责智慧工地或安全管理,现在可以如何有策略地用好这类 AI 能力?
一、多目标追踪:智慧工地的“数字安全员”
多目标追踪的价值,用一句话就能说明白:在一堆摄像头画面里,系统能持续“盯住”每一个人、每一辆车和关键设备,而不是只看见一堆互不相关的“框”。
在智慧工地场景里,这点极其关键,因为:
- 安全问题几乎都发生在“过程”中,而不是单帧画面
- 违规行为往往有持续性和轨迹特征,比如长时间滞留、反复闯入危险区
- 施工管理需要“谁、在什么时间、出现在什么地方”的完整链路
没有 MOT,工地摄像头就像“只能截图不会录像”的人:
- 只能告诉你“这一刻这里有人”
- 不能判断“是不是同一个人”“在这里停留多久”“是否多次违规”
有了稳定的多目标追踪,智慧工地就能做这几件事:
-
行为闭环识别
- 高处作业人员未系安全带,持续 X 秒触发预警
- 工人长时间逗留在起重设备回转半径内
- 夜间非作业时段有人在重点区域徘徊
-
风险趋势分析
- 某个出入口长期出现超员进出或无证人员混入
- 某个楼层经常出现人员聚集、吸烟、打闹行为
-
管理责任可追溯
- 某次事故前 10 分钟,关键人员轨迹完整还原
- 结合门禁和考勤系统,确认责任班组与管理人
说白了,MOT 是把传统“看监控”的人,替换成一套可量化、可复制、不会疲劳的“数字安全员”,这就是它在智慧工地里的根本意义。
二、小视科技为何能在 MOT 国际赛场“杀出重围”?
MOT Challenge 一直被视作多目标跟踪领域的“高手局”。阿德莱德大学、苏黎世联邦理工、达姆施塔特工业大学等顶级学术机构发起,全球 100 多家机构参与,谷歌、微软、Meta、Amazon 都在榜单上拼算法。
在这样一个赛场上,小视科技拿下 8 项指标第一,核心的 MOTA、HOTA 也都是第一,这说明两件事:
-
算法精度在全球范围内属于第一梯队
- MOTA(Multiple Object Tracking Accuracy)衡量整体跟踪准确度,包括漏检、误检、ID 切换等
- HOTA(Higher Order Tracking Accuracy)更强调检测与关联的综合表现
-
在复杂场景下的“稳”做得很好
工地环境的复杂性,和 MOT 比赛里的真实视频非常像:遮挡多、光线复杂、目标密集、运动轨迹杂乱。能在 MOT 拿高分,意味着算法在这类“脏数据”“难场景”下依然能稳住。
smooth-association:为混乱场景而生的改进
小视科技在经典的 tracking-by-detection 框架上,提出了 smooth-association 方法,本质上是把“匹配”和“关联”做得更聪明、更有弹性。
简单理解这两点:
-
不再迷信检测器的“一次判断”
传统方法常用一个固定阈值决定“这是不是同一个人”。一旦检测器在光线差、遮挡多的情况下抖了一下,就容易出现 ID 跳变、丢失轨迹。 -
引入时序视角,做“多级动态匹配”
smooth-association 会看一段时间内目标的变化趋势,而不是单帧结果:- 检测结果稳定时,严格匹配,减少误关联
- 检测结果波动大时,适当放宽阈值,并融入运动轨迹、外观特征等多种信息
效果就是:
- 在人多、目标小、遮挡严重的情况下,仍能保持 ID 一致
- 追踪轨迹更连贯,错误告警更少
这对智慧工地有直接价值:复杂场景不再是算法的“死穴”,比如:
- 浓尘天气、夜间施工、背光区域的摄像头画面
- 电梯井、脚手架迷宫、钢筋堆场这类“遮挡重灾区”
三、从社区到工地:多目标追踪场景迁移的“可行性证明”
很多建筑企业担心的一点是:
“竞赛冠军算法,能不能真正在工地跑起来?”
看小视科技过去几年的落地场景,其实已经给出了一个很现实的答案:能落地,而且已经在类似复杂场景里跑了多年。
1. 智慧社区:复杂生活场景的实战检验
在江苏、重庆、辽宁等地的智慧社区里,小视的多目标追踪能力已经被用在:
- 高空抛物识别
- 人员聚集识别
- 车辆违停检测
- 消防通道占用识别
- 遛狗未牵绳识别
这些任务对算法鲁棒性要求非常高:
- 早晚光照变化剧烈
- 电动车、行人、小孩、宠物混在一起
- 监控角度种类多、遮挡严重
能在这种场景跑得稳,就意味着迁移到工地——同样是人员密集、多干扰、强光与背光交替的环境——是有充分把握的。
2. 智慧校园、智慧园区:多角色、多规则的管理场景
在 300 余所学校中,小视系统支持:
- 学生奔跑、打架行为识别
- 人群聚集识别
- 闯入危险区告警
在沈阳浑南区智慧园区里,又承担:
- 智能考勤、智能防疫
- 智能安防与就餐行为监管
- 违停、经营占道、共享单车乱停识别
这些都是典型的“复杂规则 + 多主体 + 持续追踪”场景,逻辑上与智慧工地有很高相似度:
- 工地里的“学生”可以看成不同班组工人
- 校园/园区的危险区域,对应工地的起重臂旋转半径、高空边缘等
- 智能考勤与闸机管控,对应工人实名制进出与分区管理
这意味着,多目标追踪算法已经通过了多个类工地场景的“预演”,不是从零开始在工地里试错。
四、智慧工地具体能怎么用好 MOT?
如果你在推动智慧工地项目,或者负责安全生产,这一节可以直接当作“应用清单”来看。
1. 安全监控:从“看见”到“看懂”
多目标追踪在安全监控上的核心价值,是把“画面”变成“结构化数据 + 行为事件”。可以落地的功能包括:
-
高处作业监管
- 追踪高处作业人员的行动路径,识别是否全程在安全区域内活动
- 跨越安全护栏、长时间靠近边缘自动告警
-
吊装与塔吊作业防护
- 持续追踪吊钩下方、回转半径内人员,出现人员滞留立即预警
- 结合车辆追踪,识别塔吊回转区域内违规行驶的机械车辆
-
危险区域入侵
- 将电梯井口、洞口、深基坑划定为危险区
- 任何人员进入、停留时间超过阈值,自动上报
这些能力的前提都是:系统能可靠地把“这个人”从 A 摄像头一路跟到 B 摄像头,而不是每次当成一个新目标。
2. 施工组织与劳务管理:数据化调度
MOT 不是只能做安全,它同时也是非常好的“生产数据采集器”。
-
人员分布热力图
- 统计各楼层、各作业区不同时段人员数量
- 识别长期“空转”区域或超员区域,辅助调整施工组织
-
班组作业时长与轨迹
- 基于实名制与追踪结果,获取真实在场时长和作业区域
- 为劳务结算、工程量核对提供佐证
-
关键通道与设备利用率
- 追踪物料运输车辆、升降机使用频次与排队情况
- 为临时道路、垂直运输设备的优化提供依据
这些本来需要大量人力“蹲点统计”的工作,现在可以在 MOT 的基础上自动生成报表,智慧工地真正有了可运营的“行为数据资产”。
3. 与 BIM、物联网的协同
在“AI 在中国建筑行业的应用:智慧工地”这个大命题下,多目标追踪只是其中一个模块,但它是把“人和物的动态”引入数字世界的关键环节。
-
与 BIM 模型 结合:
- 把人的实时位置映射到 BIM 三维模型里,看到“谁在三维空间的哪个构件附近作业”
- 发现某些构件长期未有人作业,辅助进度偏差分析
-
与 物联网传感器 结合:
- 当塔吊风速传感器报警时,检查是否仍有人员在塔吊附近停留
- 当深基坑变形超限时,优先清空基坑内人员,系统实时追踪疏散情况
MOT 是把这些系统“串”在一起的粘合剂,让安全监控不再是孤立系统,而是融入整个数字施工管理闭环。
五、对建筑企业的现实建议:怎么落地、怎么选型?
最后说点更务实的。如果你正在规划或升级智慧工地系统,可以参考这几点:
1. 把“多目标追踪能力”写进技术指标
很多招标文件只写“支持人员检测、行为识别”,但没明确:
- 是否支持跨摄像机持续跟踪
- ID 切换率、轨迹完整率的要求
建议在技术指标里,明确写出:
- 支持多目标持续追踪,提供轨迹 ID
- 在遮挡、逆光、小目标场景下有稳定表现(可要求提供实测视频)
- 提供典型安全事件的基于轨迹的规则配置能力
2. 要求提供“类工地实战案例”而非只看竞赛成绩
MOT 冠军是加分项,但别把它当全部。更关键的是:
- 是否有在社区、园区、校园等复杂场景大规模落地的经验
- 是否有在建筑或市政工地真实部署的案例
- 是否能在你的工地环境下做一段时间试运行
从小视科技的路径可以看到,一个成熟供应商往往是:先在城市治理、园区、校园等场景打磨,引擎稳定后再迁移到工地这种高风险场景。
3. 提前规划算力与网络,别让算法“跑不起来”
多目标追踪是实时算法,对算力和网络有要求:
- 高分辨率多路摄像头 + 实时追踪,需要边缘侧具备 GPU 或高性能 NPU
- 工地网络环境复杂,尽量保障关键摄像头的数据传输质量
所以在项目前期,就应该让技术团队或集成商把:
- 算力规划(每路视频需要多少算力、多少路)
- 部署架构(前端智能 vs 边缘计算网关 vs 云端) 讲清楚,而不是后期再被动加设备。
尾声:智慧工地,需要更多“看得见过程”的技术
中国建筑业这两年在数字化上跑得很快,从 BIM、CIM 到物联网、工业互联网,但安全生产这一块,很多工地还停留在“事后复盘”的阶段:出事后调监控、查责任。
多目标追踪技术在 MOT Challenge 上的突破,只是一个节点,它真正的价值在于:让工地安全管理从“事后录像”走向“事中干预”和“事前预警”。当每一个人、每一台车、每一件关键设备都被准确、稳定地追踪时,安全就不再是一堆散落的摄像头,而是一张有逻辑、有记忆的“安全网络”。
接下来,谁能把这张网络织得更细、更稳,谁就能在智慧工地的竞争中真正拉开差距。对愿意在安全上投入、在技术选型上认真对待的建筑企业来说,现在是一个不错的起点。