用城市元宇宙的技术路线做智慧工地:用AI三维建模、神经渲染和隐私保护,把工地变成可计算、可复盘、又合规的数据资产。

在真实项目里,三维建完一座“数字工地”,往往比盖一栋楼还累。
做过BIM建模或倾斜摄影重建的人都懂:数据采集贵、算力消耗大、点云又稀又脏,后面还要一大批美工、人手去“抹噪点、补立面、拉边线”。城市级重建如此,工地级的数字孪生其实也在走同样的老路。
但虞晶怡教授提到的“城市元宇宙”(MetaCity)思路,把路子彻底拧过来了:用AI直接把物理世界映射到数字世界,用神经网络本身作为城市(或工地)的“隐式模型”。
这对正在上马“智慧工地”“智能建造”的中国建筑企业,非常关键。
本文结合虞晶怡在中国人工智能安防峰会上的分享,换个视角聊三件事:
- AI如何给工地做“城市级”的三维建模
- 深度学习+多源感知,怎样让工地视频不再只是“看录像”
- 在遍布摄像头和传感器的智慧工地里,隐私保护可以怎么做
并尝试回答一个更现实的问题:从城市元宇宙走到智慧工地,我们今天就能落地什么?
一、城市元宇宙的底座:从2D计算成像到工地“亿万像素视角”
要做城市元宇宙,第一步不是3D,而是把2D看清楚、看完整。
虞晶怡这些年的工作,核心是“计算成像”:
不是单纯换更贵的相机,而是用算法+相机系统的联合设计,把原本拍不到、拍不清的东西拍出来。
1.1 从“亿万像素的上海”到“亿万像素的智慧工地”
在进博会上展示的“140亿像素上海”项目,思路非常适合搬到工地:
- 用多机位光场相机阵列,对大场景进行超高分辨率采集
- 通过分级切块、压缩编码,把庞大图像存入分层结构
- 前端(哪怕是一台普通笔记本)只请求当前视角、当前层级的图像块,就能流畅放大到看清一根天线
对应到智慧工地,就是:在一个复杂的大场站里,从鸟瞰总平面,一路“缩放”到某块模板的钢筋绑扎细节。
实际应用上,可以做的事情不少:
- 超大场景施工巡检:总包、监理远程即可“巡视全场”,不是看糊成一片的监控,而是能定点看清钢结构节点、幕墙缝隙。
- 工序留痕:混凝土浇筑前后、钢筋隐蔽工程,留下超高分辨率“底片”,方便后期责任追溯与质量复盘。
- 安全文明检查:安全帽、临边防护、材料堆放等细节,在亿万像素级别下无所遁形。
这里的关键点是:计算成像不等于堆硬件,而是用算法把“看得见”和“算得起”同时做到。
1.2 编码快门:让高速工地场景“按下慢放键”
工地现场有大量高速场景:塔吊吊装、汽车吊回转、车辆进出、预制构件吊装……传统相机要么:
- 提高快门,画面暗、噪点大;
- 保证亮度,画面糊成一片,车牌、人脸、构件编号全废。
虞晶怡十年前做的“编码快门成像”,思路是:
- 不再用“开/关”这种简单快门,而是用随机编码的方式在曝光期内反复“闪开闪关”;
- 在频域上相当于叠加多种不同的
sinc函数,尽量避免在同一频率上出现“全为0”的情况; - 再通过逆问题求解,把高频信息(边缘、细节)从模糊图像中“抠”回来。
这对智慧工地有什么用?
- 夜间高车流工地出入口:用编码快门+算法还原,既能看清车牌、司机行为,又不必把曝光时间压到极限。
- 吊装安全行为分析:对吊装过程中关键帧进行“去模糊”,辅助事故调查与危险行为识别。
- 高速机械动作诊断:如盾构、桩机关键机构的异常振动,通过高速编码成像捕捉细微变化,为设备运维做诊断。
一句话:把“糊成一团”的工地监控画面,变成能算、能查、能追责的高价值数据源。
二、三维重建:从“建罗马”到“建智慧工地数字孪生”
城市元宇宙的第二层,是三维重建。谷歌的“One Day Rome”已经证明:
只要有足够多的照片,就能在一天内重建出一座城市的三维模型。
传统做法在工地上也一直存在:
- 倾斜摄影+无人机航测
- SfM/SLAM 生成稀疏点云
- 再手工或半自动做成网格、贴图
问题大家也都遇到过:
- 大项目算力成本高,集群跑几天很常见;
- 点云稀疏、噪声多、结构断裂;
- 最后还是要靠美工+建模团队“修三维”,周期长、成本高。
2.1 LiDAR+视觉:让工地扫描从“项目”变成“日常动作”
虞晶怡提到的一个重要趋势,是用LiDAR+视觉定位代替纯视觉重建。
做智慧工地的朋友可以重点关注这种组合:
- LiDAR 提供稳定、精确的三维点云(即使在弱纹理、光照差的场景)
- RGB 相机负责位姿估计和语义信息
- 二者融合,就能在行走、驾驶、飞行过程中实时生成较为完整的空间点云
实际工地场景的落地方式包括:
-
头戴/背负式移动扫描
测量员或BIM工程师背着LiDAR+相机,在楼层间步行扫描:- 15–30分钟,就能完成一层楼的结构扫描
- 自动对齐到设计BIM坐标,实现“所见即对比”
-
小车或机器人巡检扫描
在地下车库、大型厂房等场景,用AGV或四轮小车挂载LiDAR:- 规划路径,一次巡检即可生成完整点云
- 与上一次扫描自动对比,量化施工进度与偏差
-
无人机空中LiDAR+影像采集
对于超高层或大体量场站:- 上层结构、幕墙安装等,用无人机边飞边扫
- 结合地面点云,实现上、中、下三位一体的数字孪生
这类技术的本质改变在于:三维重建不再是“专项成果”,而变成“高频运维动作”。
2.2 与BIM深度协同:三维重建不只是看“长得像”
很多工地已经在用BIM,但真正把“现场三维点云”和“设计BIM模型”打通的还不多。
以城市元宇宙的思路做智慧工地数字孪生,至少可以做到:
- 模型级别对比:
- 结构构件是否按图施工(标高、偏心、轴线偏移)
- 机电管线是否走错、是否有碰撞
- 进度量化:
- 某个施工段已完成混凝土体积、钢筋工程量
- 与计划进度曲线自动对比,生成偏差分析
- 变更与签证管理:
- 通过扫描数据量化“新增实体”,为变更签证提供客观依据
元宇宙/元城市的术语听上去有点远,但对施工企业而言,其实就是:
让“BIM不再只是投标、汇报时的三维动画”,而是真正成为以数据驱动现场管理的操作系统。
三、神经渲染:让工地数字孪生从“几何+贴图”进化成“神经场”
传统三维重建思路是:几何(点云/网格)+纹理贴图。
虞晶怡特别强调的,是近几年兴起的NeRF(Neural Radiance Field,神经辐射场):
不再显式存点云和贴图,而是把“光线-颜色-密度”的映射直接学进一个神经网络里。
3.1 用NeRF看工地:粗几何+少量图片,生成“照片级”三维
在NeRF框架下,只要给足够多视角的照片(加上位姿信息),网络就能学会:
- 对任意视角、任意像素,给出颜色(RGB)+密度(σ)
- 从而隐式表达出工地所有可见几何和材质
对于智慧工地,这意味着:
- 不再需要超精细的美工建模,粗略几何+稀疏点云+少量标注即可生成高质量三维可视化;
- 可以在BIM模型基础上,通过少量实景照片“神经上色”,还原材料真实质感(混凝土、钢梁、脚手架、防护网等)。
对施工管理的直接价值:
- 多视角、安全复盘:事故后可以在“虚拟工地”中任意走动、回放,而不是被固定机位视频限制。
- 方案推演:如大型吊装、场内交通组织,在神经场里模拟不同方案、观测视线遮挡与安全距离。
- 多方协同沟通:与业主、设计单位沟通变更时,用“照片级”的三维场景,比抽象BIM更直观。
3.2 融合LiDAR的Urban Radiance Field:城市级→工地级落地路线
学界已经有把城市街区做成Urban Radiance Field的工作:
- 输入:多视角照片 + LiDAR 点云
- 输出:
- 完整、干净的城市结构三维
- 支持任意视角浏览的真实感渲染
搬到工地层面,这种思路很适合做:
- 超大型项目的统一数字底座:
- 地上塔楼、地下车库、周边市政统一建成“工地辐射场”
- 长期运维场景:
- 交付后,业主用同一套神经场做设施运维、改造可行性研究
概念上看,这就是从MetaCity(元城市)到MetaSite(元工地)。
区别在于:
- 城市元宇宙强调宏观尺度和城市运营;
- 智慧工地更关注施工阶段的安全、质量、进度与成本;
- 但二者在“感知-建模-渲染”链路上,其实是一套技术栈。
四、隐私保护:智慧工地不是“裸奔工地”
所有智慧工地方案绕不开一个现实:
摄像头越来越多,算法越来越强,工人的隐私与合规风险也随之变大。
虞晶怡在2010年就做过一系列“为安防系统加隐私保护”的工作,很适合今天的智慧工地环境。
4.1 互素模糊:同一段视频,不同人看到的不一样
核心概念是:
- 对同一段监控视频,生成两路“模糊流”(blur stream),模糊核之间满足“互素”关系;
- 对于普通权限:只看其中一路模糊视频,看得出有人、看得出行为,但看不清身份特征(如人脸);
- 对于高权限(例如重大事故调查组):可以拿到两路模糊视频,通过数学方法“联合去模糊”,恢复高分辨率细节。
对应到智慧工地,可以这样设计权限体系:
- 总包安全员/班组长:只能看到行为级信息,用于日常考核、违章提醒;
- 公司级合规/法务/事故调查小组:在严格审批下,才有权访问可恢复身份的二路数据;
- 数据出厂/对外合作:只对外开放单路模糊数据或行为特征数据,避免将可识别身份的信息外泄。
这类方案有一个非常现实的好处:
不需要所有人签署“你被24小时高清拍摄同意书”,而是用技术默认保护绝大多数人的脸,只在极小比例的合规场景下才恢复。
4.2 多闪光灯+深度边界:保留“行为”,抹去“纹理特征”
另一条思路,是利用多闪光灯产生的不同阴影,提取深度边界,而不是纹理细节:
- 多个光源从不同方向打在同一对象上,影子位置会变化;
- 从这些变化中可以推断出物体的三维形状轮廓;
- 但材料表面的“纹理”信息(如字迹、斑点、痣)可以被有意抹掉。
在智慧工地,类似技术可以用于:
- 保护个体身份特征:如面部痣、纹身等高度可识别纹理,被自动模糊或削弱;
- 抹除敏感信息:比如临时张贴的电话、身份证照、工资表等,只能看出“有一张纸”,看不出具体内容;
- 行为分析优先:算法更关注人的轮廓、动作轨迹,而非五官细节。
再往前一步,虞晶怡还提到:神经网络本身就是一种天然“隐私壳”:
- 在NeRF等神经场框架下,现场不再直接传输原始图片和裸点云;
- 采集端本地训练或部分训练,上传的是“已经抽象成网络参数”的模型;
- 想从这个网络里“还原出某个人的脸”,难度远高于从原始视频里截一帧。
对于考虑长期数据资产运营的大型建筑央企、国企,这种“天生带隐私保护”的数字底座,会越来越重要。
五、对中国建筑企业的三点落地建议
结合城市元宇宙的技术路径,我更推荐建筑企业在智慧工地上这样布局:
5.1 把“工地数字孪生”当成长期资产,而不只是项目成果
- 项目一开工,就规划好数据采集策略:航测、LiDAR、固定相机、移动终端等;
- 每个关键里程碑形成一次完整三维快照,并与BIM版本绑定;
- 项目结束后,沉淀为可复用的“元工地模板”,给后续类似项目节省大量建模成本。
5.2 从“看监控”升级到“在三维空间里算问题”
- 不再单纯堆叠监控视频墙,而是:
- 所有视频流挂接到统一的三维场景里
- 在三维世界里统计“多少人、多少车、哪里拥堵、哪里有风险点”
- AI算法的输入,不只是单路视频,而是语义化的数字工地:
- 某人在哪个区域、哪种作业面、是否接近高危点位
5.3 把隐私与合规嵌入系统设计,而不是事后打补丁
- 一开始就定义好数据分级、访问权限与模糊策略;
- 在采集端就做模糊或特征抽象,云端尽量不存“可溯源到个人”的原始素材;
- 对外输出数据(给分包、给研究机构、给第三方平台)时,优先输出“匿名化后的统计和场景模型”。
从城市元宇宙的视角看智慧工地,会发现很多“原来只在论文和Demo里出现”的技术,其实已经准备好了,只是建筑行业还没充分用起来。
我个人的判断是:
未来2–3年,谁先把三维重建+神经渲染+隐私保护这一整套能力,真正嵌入到项目管理流程里,谁就会在智能建造的竞争中领先一大步。
智慧工地不只是多装几个摄像头、多挂几块大屏,而是要敢把工地当成一座小型“元城市”来建模、来运营。这一步,越早迈出去,后面的红利越大。