🇨🇳 一个模型搞定智慧工地多任务？从OneThinker看建筑AI新范式 - China

AI在中国建筑行业的应用：智慧工地•2025年12月17日•By 3L3C

一个模型搞定安全、进度、质量等多任务？借港中文 MMLab×美团 OneThinker 研究，看看智慧工地 AI 该如何从专用系统走向统一大脑。

智慧工地建筑人工智能多模态模型视觉推理工程数字化

Featured image for 一个模型搞定智慧工地多任务？从OneThinker看建筑AI新范式

一个模型搞定多个任务，才符合智慧工地的现实

在复杂工地上，摄像头、无人机、安全帽、塔吊、三维扫描……每天产生的视觉数据可以轻松达到 TB 级。但大部分工地的做法仍然是：

安全用一个视频分析系统
进度再接一个系统
质量检测单独一套
设备管理又是另一套

结果就是：系统越上越多，接口越接越乱，真正发生事故或延期时，数据没法「对在一起」，很难支撑实时决策。

香港中文大学 MMLab 和美团最近提出的 OneThinker 多模态统一推理模型，虽然诞生在通用视觉研究领域，却给智慧工地一个非常值得重视的信号：

未来工地的 AI，更像一个“统一大脑”，而不是一堆互不相通的小工具。

这篇文章，我想借 OneThinker 的设计和实验结果，聊聊：

模型界在解决什么问题
它和智慧工地的痛点有什么共鸣
建筑企业在规划 AI 时，可以直接借鉴些什么

OneThinker 做了什么：把所有视觉任务都看成“先推理、后作答”

研究团队做了一件多数工业界还没敢做的事：不再按任务拆模型，而是按「推理过程」统一建模。

在 OneThinker 里，图像和视频相关的各种任务——

问答：画面里有哪些安全隐患？接下来可能发生什么？
描述：这段视频里工人做了哪些操作？
时间定位：事故发生在视频的哪个时间段？
空间定位：高空未系安全绳的是哪一个工人？
时空联合定位：哪台塔吊在 10:32–10:35 期间超载？
跟踪：同一个工人在整个班次中的活动轨迹
分割：脚手架、临边防护、洞口等区域精确分割

都被抽象成统一形式：

模型先在内部生成一段“推理过程”，再输出答案或结构化结果。

这和传统「直接吐结果」的感知模型差别很大，更接近人类工程师的工作方式——先分析现场、对照规范，再给出判断。

研究团队还做了两件关键事：

构建大规模多任务数据集：涵盖图像、视频的多种任务，不同难度、不同场景。
用强化学习把“推理质量”纳入训练核心：不仅看答案对不对，还看推理过程是否合理、输出格式是否规范，通过改进的 EMA-GRPO 算法，平衡各类任务的训练信号。

这套思路，几乎可以 1:1 映射到智慧工地的需求上。

强统一、不掉线：为什么一个模型反而比一堆专用系统更可靠

1. 多任务联合训练，性能不降反升

从实验结果看，OneThinker 有两个非常值得建筑行业关注的特点：

在图像 / 视频问答、描述、定位、跟踪、分割等 大多数任务上，都优于基础模型和其他开源方法
在数学推理、科学推理、多步骤逻辑推理、长视频推理上，优势更明显

换句话说：

把任务放在一个统一框架里训练，性能不但没掉，反而整体更强。

对应到智慧工地场景，可以类比：

如果安全监控、进度识别、施工行为分析、机械运行监控都在一个模型里学习
模型会逐渐学会：同一张图像里的「人、设备、构件、环境」之间的关系
在判断安全隐患时，就能自然参考进度状态、设备状态，而不是「只盯一角」

这种 跨任务的共享认知，恰好是目前工地上多个系统「各干各的」所缺失的。

2. 时间建模能力强，适合长周期施工场景

在视频问答任务上，OneThinker 在长视频推理、视频数学推理上表现突出，说明它：

能处理长时间序列
能理解事件演变和长程依赖

这对建筑现场非常关键。工程不是短视频，是 以月为单位的时间线：

同一楼层从钢筋绑扎、模板支设、混凝土浇筑到拆模
不同工种交叉作业引发的隐患，往往不是单帧能看出来的

如果把工地的视频流交给一个具备强时间建模能力的统一模型，它可以做的就不只是「这一刻有没有戴安全帽」，而是：

某个分包单位最近一周是否频繁晚到早退
某台塔吊是否持续存在超时高负荷运行
某条临边防护在过去 3 天是否多次被临时拆除又恢复

这类 工程级推理，本质上就是对时间的深度建模。

从视觉推理到工程推理：智慧工地可以直接借用的三种能力

能力一：多模态安全监控，从「识别行为」到「判断风险」

传统安全 AI 更多停留在：

检测安全帽、安全带、反光衣
识别吸烟、打手机、翻越围栏

这些当然有用，但离「真正的安全风控」还差两步：情境和后果。

OneThinker 的统一推理思路，给了一条更实在的路径：

图像 / 视频问答 + 时间定位
比如把任务设计成：
- 「这段视频中是否存在高空未系挂安全带的行为？发生在什么时候？」
- 「混凝土浇筑时，泵管是否出现异常抖动？持续了多长时间？」
时空联合定位 + 跟踪
将违规人员和设备在空间中精准定位，并持续跟踪：
- 哪个工人
- 在哪一层哪个区域
- 持续多久
推理输出可结构化
输出结果不仅是一句文本，而是一条结构化记录：
- 任务：高处作业安全监测
- 时间：2025-12-17 10:32:15–10:33:40
- 位置：A栋 18 层东南角
- 人员：ID xxx
- 风险等级：高

这种统一的「先推理、后结构化输出」方式，非常适合对接企业的 EHS 平台、BIM 系统甚至监管平台。

能力二：进度管理与质量控制的「视觉+逻辑」组合

进度管理一直是智慧工地最难落地的环节之一。原因很简单：

纯靠上传图片、人工打标签，太费人
纯算法识别构件状态，又很难接上「工序逻辑」

OneThinker 在图像 / 视频描述任务上的表现说明：

模型具备把复杂视觉内容，整理成结构化、逻辑清晰描述的能力。

把这点迁移到工地，可以这样设计：

对某个施工区域每日航拍或固定机位拍摄
模型生成类似这样的「工程描述」：
- 「A 栋 10–12 层主体结构已完成，外架搭设至 12 层；B 栋 8 层外墙保温完成 60%，8 层外窗安装完成 30%。」
进而匹配计划进度，自动标注：
- 「A 栋结构进度正常，B 栋外墙施工滞后约 2 天。」

质量控制也类似：

空间定位 + 分割：识别梁柱、墙体、窗洞等构件位置
问答与推理：
- 「该构件模板支撑是否规范？」
- 「该楼层剪力墙是否存在明显渗漏水迹象？」

核心不在于模型会不会“看图”，而在于它能不能：

结合标准
做出解释
输出结构化结论

这其实已经非常接近「工程师助手」。

能力三：统一模型，降低 BIM 与现场数据融合成本

很多总包单位已经在用 BIM，但常见困境是：

BIM 在办公室，视频在工地，数据“见不到面”
同一实体在 BIM 和视频里是两个世界（模型 ID vs. 像素点）

OneThinker 的设计思路和 BIM 协同有天然共鸣：

它通过统一接口、统一训练流程、统一优化策略，让不同任务共享同一套“结构性知识”
对工地来说，可以把这套知识理解为：
- 构件类别、空间位置、施工顺序、工序关系等

实践上可以这样规划：

用统一模型完成「视觉–构件」对齐：
- 对视频 / 图片中的构件进行分割、识别
- 输出与 BIM 构件编码关联的结构化信息
在此之上叠加进度、安全、质量等任务：
- 统一在「BIM 空间坐标 + 时间」上建模

这比用多套系统各自做一遍对齐，要干净、高效得多。

训练方式的启示：智慧工地 AI 不该只追求“开箱即用”

OneThinker 的另一个重要结论是：

只做监督微调，不用强化学习，性能明显变差；用传统 RL 替代改进算法，整体也会退步。

这对建筑企业有两个现实提醒。

1. 工地 AI 需要「持续训练」，而不是「一次性上线」

很多项目招标时把 AI 当成硬件：

交货 → 安装 → 验收 → 结束

但从 OneThinker 的结果看，一个真正能干活的模型，往往需要：

先用大规模通用数据做监督微调
再用贴近真实任务的奖励（准确性+格式）做强化学习
在多任务之间做动态平衡

对应到工地，更理性的做法是：

把每个项目视为「强化学习场」
持续喂给模型：
- 正确判定的案例
- 误报 / 漏报的反馈
- 与计划、质量、安全结果比对后的奖惩信号

2. 奖励函数要对齐业务目标，而不是只看识别率

OneThinker 的奖励设计里，既有「准确性」，也有「输出格式」等约束，这和工程管理很像：

仅有识别准确率，不足以支撑工程决策
结果必须能被管理系统机器可读、可追溯

在智慧工地里，合理的「奖励」可以是：

提前发现的重大安全隐患数量
与实际进度的误差（天）
质量问题发生后的追溯成功率

如果只盯「模型识别准确率」，最后很容易变成「好看的 AI 演示」，而不是「真正在工地上省钱、保安全的工具」。

对建筑企业的现实建议：从一个统一任务开始

结合 OneThinker 的研究和中国建筑业的现状，我的判断是：

智慧工地不需要照抄 OneThinker 的技术细节，但非常需要采纳它的“统一思维”。

如果你是施工企业或平台方，现在就可以考虑：

选一个跨场景、跨工种的核心任务做“统一模型试点”
比如：安全+进度一体化视频分析，把所有前端摄像头接入一个统一推理模型，而不是安全一套、进度再一套。
从 day 1 就要求输出结构化结果
不要满足于「一句提醒」，而是要求：时间、地点、构件、责任单位、风险等级等字段齐全，方便后续接入 BIM、进度计划、质量追溯系统。
把多任务联合训练写进技术路线
在招标或自研方案中，不再按「一个功能一个模型」拆需求，而是鼓励：
- 统一的数据标注规范
- 统一的模型训练框架
- 在同一个模型里承载监控、进度、质量等多任务
接受“先够用、再变强”的迭代节奏
第一版统一模型的效果，可能不如某些精调过的单点算法，但只要：
- 任务覆盖更广
- 数据、知识可复用
- 能持续强化学习
它的长期价值，大概率会远超「一堆各自为战的高精度小模型」。

展望：智慧工地的 AI，大概率会长成 OneThinker 这个样子

从 OneThinker 的实验结论可以看出一个趋势：

多模态通用模型的竞争，不再是单纯比模型有多大
更关键在于：
- 任务建模方式是否统一
- 推理机制是否合理
- 训练策略能否兼顾多任务

建筑行业也在走类似的路：

不再满足于单点「AI+安全」「AI+进度」
而是开始思考「统一的数字底座」「统一的工程知识图谱」

从这个角度看，OneThinker 其实给智慧工地画了一张很清晰的技术草图：

一个模型、一个推理框架，承载安全、进度、质量、设备等多种视觉任务，用统一的逻辑为项目部提供实时决策支持。

谁先在工地上，哪怕在一个小范围内，把这张草图画实，谁就更有机会在下一轮建筑业数字化浪潮中占据主动。

本文为“AI在中国建筑行业的应用：智慧工地”系列的一部分，后续我们会继续拆解：如何从具体项目出发，把统一视觉推理模型真正落地到施工现场。