🇨🇳 3D视频世界模型：正在改变中国智慧工地的隐形力量 - China

AI在中国建筑行业的应用：智慧工地•2025年12月16日•By 3L3C

3D 视频世界模型正从实验室走向中国智慧工地现场，帮助施工企业做实景 4D 建模、施工模拟和可视化复盘，提升进度、质量与安全管理。

智慧工地3D视频世界模型建筑业数字化施工模拟AI应用案例腾讯ARC实验室

Featured image for 3D视频世界模型：正在改变中国智慧工地的隐形力量

3D 视频世界模型，正在悄悄改变工地现场

2025年的几个标志性项目里，一个细节很有意思：真正跑在工地上的 AI 系统，越来越不靠“表格”和“报表”，而是靠“视频”和“虚拟现场”说话。总包方盯进度，不再只看甘特图，而是打开一个 3D 可视化界面，看塔吊、钢筋、混凝土浇筑在“数字工地”里如何实时推进。

这背后，一类新技术正在起作用——3D 视频世界模型。在 GAIR 2025 大会上，腾讯 ARC 实验室高级研究员胡文博分享的《Towards 3D-aware Video World Models》，其实给了建筑行业一个很明确的信号：视频世界模型，已经从学术概念，走到可以服务智慧工地现场的阶段。

本文不做技术论文翻译，而是从建筑人的视角拆解：

胡文博团队在 3D 视频世界模型上到底做了什么？
这些技术如何落到智慧工地的虚拟建模、施工模拟和质量安全管理？
现在的建筑企业，应该怎样“低成本试水”，为这波技术打基础？

什么是“3D 感知的视频世界模型”？先讲结论

先给一个面向建筑行业的“翻译版”结论：

3D 感知的视频世界模型，就是用 AI 把真实工地“拍下来”，在电脑里变成一个可理解、可推演、可重放的 4D 虚拟工地。

区别在于：

过去我们做 BIM，是“事前建模”：根据图纸，搭出一个理想化的 3D 模型
现在的视频世界模型，是“事中+事后理解”：让 AI 从视频里自动学会这个真实世界怎么变化

胡文博的研究路径，可以粗略拆成三层：

高质量 3D 场景重建（Tri-MipRF 系列）——把静态空间建得又真又快
长视频实时生成与理解（Rolling Forcing）——让 AI 能够连续、稳定地“看懂”长时间施工过程
相机可控的 4D 世界生成（ViewCrafter / TrajectoryCrafter）——在虚拟空间里，随意“重拍”现场

对智慧工地来说，这三层正好对上三个痛点：

怎么快速还原现场？
怎么连续跟踪进度、质量和安全？
怎么给业主、监理和管理层做“可视化汇报”和虚拟复盘？

从 Tri‑MipRF 到 4D 世界：腾讯胡文博在做什么

1）Tri‑MipRF：为工地“搭一个清晰的数字壳子”

胡文博在 2022 年发表的《Tri-MipRF》，本来是图形学圈的热点：

目标：让神经辐射场（NeRF）重建 3D 场景时，又清晰又高效
结果：在保证高画质的前提下，模型体积比主流方案小 25%，训练和渲染速度都非常可观

换成工地语言：

一台普通 GPU，就能在比较短时间内，把工地拍几圈的视频，变成可以任意游走的 3D 场景模型，而且管线、钢筋、脚手架这些细节不会糊成一团。

这件事的价值非常直接：

做竣工建模，不必完全依赖人工点云建模
对一些改造工程，可以用“实景 + NeRF”快速建立现状模型，再叠加 BIM 方案
现场安全核查时，可以“回到某一天的三维工地”，而不是翻监控录像逐帧找

2）Rolling Forcing：让 AI 跟得上工地“长周期”

建筑项目一个典型特点：周期长、过程复杂、变量多。很多 AI 模型在 Demo 阶段表现不错，但一到长周期就会出现“越看越偏”的问题。

胡文博在 2025 年的工作《Rolling Forcing》，核心针对的是：

如何在单块 GPU 上，实时、连续地生成/理解长达数分钟甚至更长的视频流，同时把误差累积控制住。

技术上，他们设计了：

联合去噪方案：一次处理多个不同噪声水平的视频帧，减少时间上的抖动
注意力汇聚机制：用初始帧作为“全局锚点”，保证后面很远的时间点依然和最初状态一致
高效训练算法：用少步蒸馏在大窗口上训练，让模型对“长时间演化”更稳

放到工地场景里，意义非常现实：

做连续进度跟踪时，AI 不会“看着看着把主体结构长歪了”
做砌体、装饰等细部分项的过程分析，可以稳定观察几十分钟甚至几小时的变化
做机械设备运行监控（如塔吊、施工升降机），能可靠地识别“异常动作”而不是被抖动误判

3）ViewCrafter / TrajectoryCrafter：把工地当成“可重拍的片场”

胡文博提出的一个很关键观点：

现在的视频生成模型，内容很强，但本质都局限在 2D，缺乏真正的 3D 理解，所以很难当“世界模拟器”。

解决思路之一，就是让相机完全可控，强迫模型学会 3D 合理性。

ViewCrafter：从单张或少量多视角图片，合成同一场景的其他视角画面
TrajectoryCrafter：在此基础上扩展到 4D，允许用户自定义“相机轨迹”，相当于在虚拟空间里重新“拍摄”一段视频

这对建筑行业的直接冲击是：

现场只有几台固定摄像头？照样能生成更丰富的巡视视角
业主临时想看“某层机房，从北向南、从上到下”的视角？可以在虚拟工地里即时“拉镜头”
对争议问题（如是否按规范施工）进行复盘时，可以从多个虚拟机位，重新审视当时的真实状态

一句话——工地从“被动被拍”，变成“主动可拍”。

3D 视频世界模型，对智慧工地到底有多值钱？

从实际项目角度看，这类技术真正值钱的地方，有三块：

1）虚拟建模：从“静态 BIM”到“4D 现场”

当前大部分智慧工地系统，还是以 BIM 模型 + 进度计划为核心：

模型来自设计单位或第三方建模
进度靠现场人员填报，或简单对接塔吊、劳务系统

引入 3D 视频世界模型后，可以往前走一步：

快速建立“实景 BIM 壳”
- 通过 Tri-MipRF 类技术，将现场视频/照片转为高保真 3D 场景
- 在此基础上，与 BIM 模型进行自动对齐和对比
做“动态模型”而不是“静态底图”
- 模型不只是几何体，而是附带时间维度的“4D 模型”
- 管线、构件的施工顺序、养护时长、拆模时间等，都能在时间轴上被回放
给非专业干系人一个“所见即所得”的入口
- 领导、业主不用学 BIM 软件，在一个可视化界面里像玩游戏一样“走工地”

2）施工模拟：先“在虚拟工地出错”，再在真实工地少出错

世界模型本质是“会推演的模型”。对建筑施工来说，这非常契合：

施工组织模拟：在虚拟空间中排布塔吊、人货梯、材料堆场，模拟不同布置下的运输效率和安全风险
工序冲突检查：例如装修与设备安装是否抢工作面，是否存在脚手架拆除顺序错误等问题
极端工况演练：如夜间施工、大风天气塔吊作业、人流高峰时的疏散通道情况

未来一到两年内，比较务实的做法是：

用真实项目的视频数据训练局部世界模型
在有限工序、有限区域先做“小范围施工模拟”
从结果中挑出对成本、安全有明显影响的点，在下一个标段或项目中落地改进

3）可视化与复盘：从“口头汇报”到“视频+数据说话”

目前很多工地的汇报，依然高度依赖 PPT、照片、进度曲线。视频世界模型可以把它升级成：

“走着看”的进度汇报：领导在虚拟工地中切换到某一天、某时段，从某个机位查看当时真实施工状态
质量问题可追溯：例如渗漏点出现后，可以“回到施工那天”，从不同视角观察钢筋绑扎、模板支设、浇筑过程
安全事件复盘：不仅看事故发生的一刻，还能看前几小时人员与设备的行为，形成更完整的链路

这对总包、监理和业主的博弈方式都会产生影响：谁掌握了更完整、更可验证的“时空证据”，谁的话语权就更高。

建筑企业要做什么准备？三个阶段的落地路径

很多施工企业现在的真实状态是：

对 AI 世界模型很感兴趣，但既没有算法团队，也没有多余预算“做科研项目”。

现实做法不需要一口吃成胖子，可以分三步：

阶段一：把“视觉资产”收集好

世界模型再强，也得靠数据喂出来。建筑企业可以先把底子打扎实：

规范现场视频采集：
- 塔吊黑匣子、固定监控、手机巡检视频，统一命名、统一归档
- 增加少量高质量全景或多视角拍摄，为后期 3D 重建提供素材
在重点区域（如大型机房、复杂节点）试行“多视角记录”机制
对重要工序（如大体积混凝土、高支模）形成“视频+文字”双记录

这一步本身就能提升管理水平，即使暂时不用世界模型，也能改进事故追溯和质量复查。

阶段二：选 1–2 个业务场景做“小闭环”

不建议一上来就做“数字孪生大平台”，那往往变成 PPT 工程。更务实的做法：挑一个痛点，做深做透。

可以考虑的典型切入口：

主体结构进度对比：
- 用视频世界模型生成的 3D 实景，与 BIM 计划模型对齐
- 自动计算层数、构件完成度偏差
高风险工序的可视化复盘：
- 对某次重要吊装或危险性较大工程进行 4D 复现
- 为后续项目编制更精准的专项方案

在这个阶段，施工企业不必自己写算法，可以：

寻找像腾讯这类在世界模型有积累的技术伙伴
通过试点项目的方式，共同打磨“行业模板解决方案”

阶段三：融入企业级智慧工地平台

当有了可行的小闭环案例后，世界模型就不是“科研概念”，而是可以进入企业 CIO 的系统规划里：

与现有 BIM 平台、进度系统、物联网系统通过接口打通
把“4D 实景”作为一个通用能力：
- 质量管理用它做复盘
- 安全管理用它做培训和推演
- 成本管理用它做变更索赔的依据

这时再谈“数字孪生工地”“智慧工地 2.0”，就不是空口喊口号，而是以 3D 视频世界模型为基础的“有根基的升级”。

从 GAIR 2025 看建筑业的下一步：技术在前，行业要跟上

GAIR 2025 把“世界模型”单独拎出来做论坛，本身就是一个信号：

大模型解决了“听懂话、写方案”的问题
世界模型开始解决“看懂世界、推演变化”的问题

胡文博这些年的研究路线，从 Tri‑MipRF 到 Rolling Forcing，再到 ViewCrafter / TrajectoryCrafter，很像一条从“静态 3D”走向“可推演 4D 世界”的技术高速路。对建筑行业来说，这条路已经铺到了工地门口，差的是——谁先走进去，谁走得更深。

如果你是施工企业的技术负责人或信息化负责人，现阶段可以重点思考三件事：

公司有没有系统化的视频与图像资产管理？
有没有可以和 AI 技术方一起做“小闭环验证”的具体场景？
未来 2–3 年的智慧工地规划里，是否预留了“视频世界模型 / 实景 4D 模型”的位置？

世界模型不会一夜之间重塑建筑业，但它会一步步改变我们看现场、想现场、管现场的方式。谁能率先把这股技术趋势变成自己的生产力，谁就能在新一轮建筑业数字化升级中，多拿一点主动权。

如果你正在规划企业的智慧工地体系，或者希望用 AI 提升虚拟建模和施工模拟能力，可以从一个小项目开始，把工地的“视频世界”真正变成可用、可算、可管理的资产。