🇨🇳 从城市元宇宙到智慧工地：AI三维建模与隐私新范式 - China

AI在中国建筑行业的应用：智慧工地•2025年12月16日•By 3L3C

用城市元宇宙的技术路线做智慧工地：用AI三维建模、神经渲染和隐私保护，把工地变成可计算、可复盘、又合规的数据资产。

智慧工地城市元宇宙三维建模建筑业数字化计算机视觉隐私保护

Featured image for 从城市元宇宙到智慧工地：AI三维建模与隐私新范式

在真实项目里，三维建完一座“数字工地”，往往比盖一栋楼还累。

做过BIM建模或倾斜摄影重建的人都懂：数据采集贵、算力消耗大、点云又稀又脏，后面还要一大批美工、人手去“抹噪点、补立面、拉边线”。城市级重建如此，工地级的数字孪生其实也在走同样的老路。

但虞晶怡教授提到的“城市元宇宙”（MetaCity）思路，把路子彻底拧过来了：用AI直接把物理世界映射到数字世界，用神经网络本身作为城市（或工地）的“隐式模型”。

这对正在上马“智慧工地”“智能建造”的中国建筑企业，非常关键。

本文结合虞晶怡在中国人工智能安防峰会上的分享，换个视角聊三件事：

AI如何给工地做“城市级”的三维建模
深度学习+多源感知，怎样让工地视频不再只是“看录像”
在遍布摄像头和传感器的智慧工地里，隐私保护可以怎么做

并尝试回答一个更现实的问题：从城市元宇宙走到智慧工地，我们今天就能落地什么？

一、城市元宇宙的底座：从2D计算成像到工地“亿万像素视角”

要做城市元宇宙，第一步不是3D，而是把2D看清楚、看完整。

虞晶怡这些年的工作，核心是“计算成像”：

不是单纯换更贵的相机，而是用算法+相机系统的联合设计，把原本拍不到、拍不清的东西拍出来。

1.1 从“亿万像素的上海”到“亿万像素的智慧工地”

在进博会上展示的“140亿像素上海”项目，思路非常适合搬到工地：

用多机位光场相机阵列，对大场景进行超高分辨率采集
通过分级切块、压缩编码，把庞大图像存入分层结构
前端（哪怕是一台普通笔记本）只请求当前视角、当前层级的图像块，就能流畅放大到看清一根天线

对应到智慧工地，就是：在一个复杂的大场站里，从鸟瞰总平面，一路“缩放”到某块模板的钢筋绑扎细节。

实际应用上，可以做的事情不少：

超大场景施工巡检：总包、监理远程即可“巡视全场”，不是看糊成一片的监控，而是能定点看清钢结构节点、幕墙缝隙。
工序留痕：混凝土浇筑前后、钢筋隐蔽工程，留下超高分辨率“底片”，方便后期责任追溯与质量复盘。
安全文明检查：安全帽、临边防护、材料堆放等细节，在亿万像素级别下无所遁形。

这里的关键点是：计算成像不等于堆硬件，而是用算法把“看得见”和“算得起”同时做到。

1.2 编码快门：让高速工地场景“按下慢放键”

工地现场有大量高速场景：塔吊吊装、汽车吊回转、车辆进出、预制构件吊装……传统相机要么：

提高快门，画面暗、噪点大；
保证亮度，画面糊成一片，车牌、人脸、构件编号全废。

虞晶怡十年前做的“编码快门成像”，思路是：

不再用“开/关”这种简单快门，而是用随机编码的方式在曝光期内反复“闪开闪关”；
在频域上相当于叠加多种不同的sinc函数，尽量避免在同一频率上出现“全为0”的情况；
再通过逆问题求解，把高频信息（边缘、细节）从模糊图像中“抠”回来。

这对智慧工地有什么用？

夜间高车流工地出入口：用编码快门+算法还原，既能看清车牌、司机行为，又不必把曝光时间压到极限。
吊装安全行为分析：对吊装过程中关键帧进行“去模糊”，辅助事故调查与危险行为识别。
高速机械动作诊断：如盾构、桩机关键机构的异常振动，通过高速编码成像捕捉细微变化，为设备运维做诊断。

一句话：把“糊成一团”的工地监控画面，变成能算、能查、能追责的高价值数据源。

二、三维重建：从“建罗马”到“建智慧工地数字孪生”

城市元宇宙的第二层，是三维重建。谷歌的“One Day Rome”已经证明：

只要有足够多的照片，就能在一天内重建出一座城市的三维模型。

传统做法在工地上也一直存在：

倾斜摄影+无人机航测
SfM/SLAM 生成稀疏点云
再手工或半自动做成网格、贴图

问题大家也都遇到过：

大项目算力成本高，集群跑几天很常见；
点云稀疏、噪声多、结构断裂；
最后还是要靠美工+建模团队“修三维”，周期长、成本高。

2.1 LiDAR+视觉：让工地扫描从“项目”变成“日常动作”

虞晶怡提到的一个重要趋势，是用LiDAR+视觉定位代替纯视觉重建。

做智慧工地的朋友可以重点关注这种组合：

LiDAR 提供稳定、精确的三维点云（即使在弱纹理、光照差的场景）
RGB 相机负责位姿估计和语义信息
二者融合，就能在行走、驾驶、飞行过程中实时生成较为完整的空间点云

实际工地场景的落地方式包括：

头戴/背负式移动扫描
测量员或BIM工程师背着LiDAR+相机，在楼层间步行扫描：
- 15–30分钟，就能完成一层楼的结构扫描
- 自动对齐到设计BIM坐标，实现“所见即对比”
小车或机器人巡检扫描
在地下车库、大型厂房等场景，用AGV或四轮小车挂载LiDAR：
- 规划路径，一次巡检即可生成完整点云
- 与上一次扫描自动对比，量化施工进度与偏差
无人机空中LiDAR+影像采集
对于超高层或大体量场站：
- 上层结构、幕墙安装等，用无人机边飞边扫
- 结合地面点云，实现上、中、下三位一体的数字孪生

这类技术的本质改变在于：三维重建不再是“专项成果”，而变成“高频运维动作”。

2.2 与BIM深度协同：三维重建不只是看“长得像”

很多工地已经在用BIM，但真正把“现场三维点云”和“设计BIM模型”打通的还不多。

以城市元宇宙的思路做智慧工地数字孪生，至少可以做到：

模型级别对比：
- 结构构件是否按图施工（标高、偏心、轴线偏移）
- 机电管线是否走错、是否有碰撞
进度量化：
- 某个施工段已完成混凝土体积、钢筋工程量
- 与计划进度曲线自动对比，生成偏差分析
变更与签证管理：
- 通过扫描数据量化“新增实体”，为变更签证提供客观依据

元宇宙/元城市的术语听上去有点远，但对施工企业而言，其实就是：

让“BIM不再只是投标、汇报时的三维动画”，而是真正成为以数据驱动现场管理的操作系统。

三、神经渲染：让工地数字孪生从“几何+贴图”进化成“神经场”

传统三维重建思路是：几何（点云/网格）+纹理贴图。

虞晶怡特别强调的，是近几年兴起的NeRF（Neural Radiance Field，神经辐射场）：

不再显式存点云和贴图，而是把“光线-颜色-密度”的映射直接学进一个神经网络里。

3.1 用NeRF看工地：粗几何+少量图片，生成“照片级”三维

在NeRF框架下，只要给足够多视角的照片（加上位姿信息），网络就能学会：

对任意视角、任意像素，给出颜色（RGB）+密度（σ）
从而隐式表达出工地所有可见几何和材质

对于智慧工地，这意味着：

不再需要超精细的美工建模，粗略几何+稀疏点云+少量标注即可生成高质量三维可视化；
可以在BIM模型基础上，通过少量实景照片“神经上色”，还原材料真实质感（混凝土、钢梁、脚手架、防护网等）。

对施工管理的直接价值：

多视角、安全复盘：事故后可以在“虚拟工地”中任意走动、回放，而不是被固定机位视频限制。
方案推演：如大型吊装、场内交通组织，在神经场里模拟不同方案、观测视线遮挡与安全距离。
多方协同沟通：与业主、设计单位沟通变更时，用“照片级”的三维场景，比抽象BIM更直观。

3.2 融合LiDAR的Urban Radiance Field：城市级→工地级落地路线

学界已经有把城市街区做成Urban Radiance Field的工作：

输入：多视角照片 + LiDAR 点云
输出：
- 完整、干净的城市结构三维
- 支持任意视角浏览的真实感渲染

搬到工地层面，这种思路很适合做：

超大型项目的统一数字底座：
- 地上塔楼、地下车库、周边市政统一建成“工地辐射场”
长期运维场景：
- 交付后，业主用同一套神经场做设施运维、改造可行性研究

概念上看，这就是从MetaCity（元城市）到MetaSite（元工地）。

区别在于：

城市元宇宙强调宏观尺度和城市运营；
智慧工地更关注施工阶段的安全、质量、进度与成本；
但二者在“感知-建模-渲染”链路上，其实是一套技术栈。

四、隐私保护：智慧工地不是“裸奔工地”

所有智慧工地方案绕不开一个现实：

摄像头越来越多，算法越来越强，工人的隐私与合规风险也随之变大。

虞晶怡在2010年就做过一系列“为安防系统加隐私保护”的工作，很适合今天的智慧工地环境。

4.1 互素模糊：同一段视频，不同人看到的不一样

核心概念是：

对同一段监控视频，生成两路“模糊流”（blur stream），模糊核之间满足“互素”关系；
对于普通权限：只看其中一路模糊视频，看得出有人、看得出行为，但看不清身份特征（如人脸）；
对于高权限（例如重大事故调查组）：可以拿到两路模糊视频，通过数学方法“联合去模糊”，恢复高分辨率细节。

对应到智慧工地，可以这样设计权限体系：

总包安全员/班组长：只能看到行为级信息，用于日常考核、违章提醒；
公司级合规/法务/事故调查小组：在严格审批下，才有权访问可恢复身份的二路数据；
数据出厂/对外合作：只对外开放单路模糊数据或行为特征数据，避免将可识别身份的信息外泄。

这类方案有一个非常现实的好处：

不需要所有人签署“你被24小时高清拍摄同意书”，而是用技术默认保护绝大多数人的脸，只在极小比例的合规场景下才恢复。

4.2 多闪光灯+深度边界：保留“行为”，抹去“纹理特征”

另一条思路，是利用多闪光灯产生的不同阴影，提取深度边界，而不是纹理细节：

多个光源从不同方向打在同一对象上，影子位置会变化；
从这些变化中可以推断出物体的三维形状轮廓；
但材料表面的“纹理”信息（如字迹、斑点、痣）可以被有意抹掉。

在智慧工地，类似技术可以用于：

保护个体身份特征：如面部痣、纹身等高度可识别纹理，被自动模糊或削弱；
抹除敏感信息：比如临时张贴的电话、身份证照、工资表等，只能看出“有一张纸”，看不出具体内容；
行为分析优先：算法更关注人的轮廓、动作轨迹，而非五官细节。

再往前一步，虞晶怡还提到：神经网络本身就是一种天然“隐私壳”：

在NeRF等神经场框架下，现场不再直接传输原始图片和裸点云；
采集端本地训练或部分训练，上传的是“已经抽象成网络参数”的模型；
想从这个网络里“还原出某个人的脸”，难度远高于从原始视频里截一帧。

对于考虑长期数据资产运营的大型建筑央企、国企，这种“天生带隐私保护”的数字底座，会越来越重要。

五、对中国建筑企业的三点落地建议

结合城市元宇宙的技术路径，我更推荐建筑企业在智慧工地上这样布局：

5.1 把“工地数字孪生”当成长期资产，而不只是项目成果

项目一开工，就规划好数据采集策略：航测、LiDAR、固定相机、移动终端等；
每个关键里程碑形成一次完整三维快照，并与BIM版本绑定；
项目结束后，沉淀为可复用的“元工地模板”，给后续类似项目节省大量建模成本。

5.2 从“看监控”升级到“在三维空间里算问题”

不再单纯堆叠监控视频墙，而是：
- 所有视频流挂接到统一的三维场景里
- 在三维世界里统计“多少人、多少车、哪里拥堵、哪里有风险点”
AI算法的输入，不只是单路视频，而是语义化的数字工地：
- 某人在哪个区域、哪种作业面、是否接近高危点位

5.3 把隐私与合规嵌入系统设计，而不是事后打补丁

一开始就定义好数据分级、访问权限与模糊策略；
在采集端就做模糊或特征抽象，云端尽量不存“可溯源到个人”的原始素材；
对外输出数据（给分包、给研究机构、给第三方平台）时，优先输出“匿名化后的统计和场景模型”。

从城市元宇宙的视角看智慧工地，会发现很多“原来只在论文和Demo里出现”的技术，其实已经准备好了，只是建筑行业还没充分用起来。

我个人的判断是：

未来2–3年，谁先把三维重建+神经渲染+隐私保护这一整套能力，真正嵌入到项目管理流程里，谁就会在智能建造的竞争中领先一大步。

智慧工地不只是多装几个摄像头、多挂几块大屏，而是要敢把工地当成一座小型“元城市”来建模、来运营。这一步，越早迈出去，后面的红利越大。