商汤SenseNova-SI在空间智能上超越GPT-5,对智慧工地意味着什么?这篇文章拆解技术突破,并给出4类高价值落地场景。

从AI“看不懂工地”开始说起
不少施工总包这两年都在上“智慧工地”平台,摄像头、BIM、大屏一应俱全,但关键时刻还是要靠人肉盯。原因很直接:绝大多数AI,其实并不真正“懂”空间。
一个典型例子是:一些顶尖大模型写方案、算工程量都很溜,可一到最简单的“从这个角度看,塔吊在左边还是右边?”、“这段脚手架从俯视看是什么形状?”就开始答错。对人类小学生很容易的问题,对通用大模型却是硬伤。
2025-11,商汤发布并开源的 SenseNova-SI 日日新·空间智能大模型,在四个权威空间智能评测上,8B模型平均分 60.99,不仅明显领先同量级开源多模态模型,还超过了 GPT-5 和 Gemini 2.5 Pro 等闭源旗舰模型。这件事,对建筑行业的意义,其实比“又一个模型刷榜”重要得多——它指向了智慧工地落地一直缺的那块拼图:让AI真正看懂三维施工现场。
这篇文章会聚焦一件事:
空间智能的大突破,怎么才能在中国建筑业、尤其是智慧工地场景里真正用起来?
一、为什么说“空间智能”是智慧工地的命门?
**空间智能,说白了就是AI对三维世界的“方位感”和“场景感”。**和知识问答、文字生成不同,它关心的是:
- 物体在哪里、相互什么关系(空间关系)
- 换个角度看,会是什么样(视角转换)
- 东西挪动、变形后,整体结构怎么变(空间形变、空间重构)
- 根据当前画面,下一步可能会发生什么(空间推理)
这些能力,几乎和智慧工地的核心需求一一对应:
- 安全文明施工:识别高处作业、洞口临边、塔吊回转半径内误入人员,本质是空间关系+空间推理
- 施工进度管理:通过视频和现场照片,推断构件是否安装到位、设备是否按计划就位,是空间重构问题
- BIM+现场对比:从不同角度拍摄的现场照片,自动对齐BIM模型,属于视角转换和空间测量
- 智能巡检机器人:在复杂工地穿行,避障、定位、识别通道,离不开空间感知
现在很多“AI+工地”项目效果一般,说到底,就是在用语言智能解决问题,而实际需要的是空间智能。模型能听懂你说“检查3号楼北侧外脚手架”,但对摄像头画面里的“北侧、外脚手架、相对塔吊的位置”仍然是模糊的。
智慧工地要从“看视频+人工判断”升级到“看视频+AI判断+自动联动”,空间智能是绕不过去的底座能力。
二、SenseNova-SI:空间智能指标上超越 GPT-5 意味着什么?
商汤这次开源的 SenseNova-SI 系列,包括 2B 和 8B 两个规格。在四个空间智能基准测试(VSI、MMSI、MindCube、ViewSpatial)上的表现,是这次行业关注的核心:
- SenseNova-SI-8B 平均分:60.99
- 同类开源模型:Qwen3-VL-8B 为 40.16,BAGEL-7B 为 35.01
- 专门做空间智能的模型:SpatialMLLM 35.05,ViLaSR-7B 36.41
- 典型闭源旗舰模型:GPT-5 49.68,Gemini 2.5 Pro 48.81
也就是说,在专门考空间理解和空间推理的题目上,SenseNova-SI-8B 用一个轻量级开源模型,完成了对一众大体量闭源模型的“反超”。
这件事对建筑企业的价值有两点:
- 性能上,AI第一次在“看懂空间”这件事上接近甚至超过人类普工的直觉,例如:
- 判断俯视图是哪一种
- 换个机位后推断自己移动方向
- 根据车辆、道路线形,判断下一步是直行还是右转
- 成本上,开源的 2B/8B 规模模型,可以在企业自有算力或行业云上部署,为“私有化智慧工地大模型”扫清了技术门槛。
对比很多号称“支持多模态”的大模型,SenseNova-SI 的关键差异是:
不是“看看图说两句”,而是把图像真正当空间场景来理解。
这对于需要处理大量视频监控、BIM视图、无人机倾斜摄影的智慧工地来说,价值非常直接。
三、技术背后:空间智能“尺度效应”能给建筑业带来什么?
商汤在空间智能上做的事,可以粗暴概括为:
用体系化的大规模空间数据,把模型“从平面教到三维”。
1. 六大空间能力维度
团队把空间智能拆成了六个可训练、可评估的维度:
- 空间测量:距离、高度、角度、体量的估计
- 空间重构:根据不同视角恢复整体结构
- 空间关系:前后左右、上下远近、遮挡关系
- 视角转换:从新位置想象旧画面,或反之
- 空间形变:物体移动、旋转、折叠后的形态
- 空间推理:根据当前场景,预测行为和结果
这些维度,与工地日常管理高度契合:
- 起重吊装安全控制 → 空间测量+空间关系
- 脚手架搭设质量核查 → 空间重构+空间形变
- 塔吊、施工电梯防碰撞 → 视角转换+空间推理
- 大体量钢结构安装姿态判断 → 空间测量+空间重构
2. “尺度效应”:数据够大,空间感知自然变好
商汤的一个重要发现是:空间智能同样存在“尺度效应”——当有足够多、足够干净的空间任务数据时,模型的空间认知能力会出现“质变式”提升,而不是小打小闹地微调。
这对建筑行业意味着两件事:
- 行业数据价值会被真正激活。大量历史施工影像、BIM模型、三维扫描数据,不再只是归档,而是训练行业专用空间智能大模型的“矿”。
- 未来完全可以在通用空间大模型之上,叠加建筑场景的小样本训练,快速得到“会看工地”的专用模型,而不是从零做。</n
3. 通用训练范式:不锁死技术路线
商汤强调,这套空间智能增强方法对不同基模型架构是通用的(比如可应用在 InternVL 等基座上)。对建筑企业来说,一个好处是:
- 你可以选择自己熟悉的开源多模态基座
- 再引入类似 SenseNova-SI 的空间增强范式
- 最终得到既懂语言、又懂空间、还懂建筑业务的大模型
这比被一家闭源厂商整体锁死,更适合在央企总包、地方龙头这种复杂IT环境里落地。
四、落到工地:空间智能在智慧工地的四类高价值场景
如果把 SenseNova-SI 这一类空间智能模型引入智慧工地系统,优先适合做哪些事?这里给出四个我最推荐的切入点。
1. 视频+空间理解的安全监管
目标:从“看得见”变成“看得懂”现场风险。
基于空间智能,大模型可以在原有视频监控上,做更多“带方位”的判断:
- 判断高处作业人员是否在防护栏内,人与栏杆的空间关系是否安全
- 识别物料堆放是否侵入临边、消防通道、塔吊回转半径
- 根据人员、机械相对位置和运动方向,提前预警“即将进入危险区”
相比传统的目标检测,只会回答“有没有人”“有没有塔吊”,空间智能模型能够回答:
“人在塔吊回转半径内,并正向吊物运动,预计3秒后进入吊物正下方。”
这种“带时间的空间推理”,才是真正对安全管理有价值的智能。
2. BIM+现场自动对比与进度盘点
现在很多BIM应用卡在一个点:BIM和现场是两张皮。模型在电脑里很漂亮,现场照片却很“乱”,自动比对难度大。
有了更强的空间重构和视角转换能力后,可以做的事情包括:
- 工人或监理用手机/头戴设备随手拍现场,模型自动识别“这是从哪个角度看到的什么构件”
- 将照片中的构件位置、姿态与BIM模型对齐,判断是否按计划安装、是否偏位
- 对高支模、深基坑等重点分部分项工程,形成“BIM三维+现场实景”叠加视图,辅助验收
长远看,这相当于为BIM加上一双“自动对点的眼睛”,减少大量人工对图、对现场的时间。
3. 智能巡检机器人与无人机的“空间大脑”
无论是地面巡检机器人,还是塔吊顶无人机,都离不开两件事:
- 在复杂空间中准确定位自己
- 正确理解周围环境的结构和变化
空间智能模型可在这里扮演“高层决策大脑”的角色:
- 机器人行进过程中,实时判断“哪条路线障碍更少”、“哪里存在临时构筑物,需绕行”
- 无人机航拍视频中自动标注脚手架、卸料平台、安全网、洞口等构件,并按施工计划生成巡检任务
- 结合时间序列,在重复航线中识别“新出现的安全隐患”或“结构变形趋势”
这类应用非常适合先在复杂程度相对可控的场景试点,比如:
- 装配式建筑构件堆场
- 室内精装修阶段的质量巡检
4. 施工方案模拟与“空间可视化交底”
传统的交底往往停留在二维图纸、PPT,现场班组对“实际空间里怎么干”还是要靠经验。空间智能模型可以让施工方案真正“活起来”:
- 把施工组织方案、吊装路径、堆料位置等转成三维动画
- 支持用自然语言调整方案:“如果这辆车从东门进场,道路怎么走更安全?”
- 根据场地三维模型和机械尺寸,自动试算可行的吊装站位、回转空间
更重要的是,模型可以识别方案中的空间冲突:
- 某个临时道路设计过窄,混凝土罐车转弯半径不够
- 某一侧布置临时仓库后,消防通道被压缩
- 交叉作业高度、作业面之间存在坠落、打击风险
这类方案仿真功能,和商汤“悟能”具身智能平台、世界模型的路线是相通的。对于大型项目部来说,这是用AI把“经验型总工”固化成可复制能力的一条现实路径。
五、对建筑企业的落地建议:从哪一步开始?
如果你在负责企业数字化、信息化或科技创新,这里有一条相对务实的路线:
-
先选场景,不先选模型。
- 明确要解决的是安全、进度、质量还是方案模拟
- 用1–2个高价值、可度量成效的子场景做试点
-
以开源空间智能模型为起点,做小规模验证。
- 选择类似 SenseNova-SI 这样专注空间智能、支持本地部署的模型
- 初期不必深度定制,仅做推理能力验证:它在典型工地图片/视频上的判断效果到底怎样
-
建设小规模“标注+评测”体系。
- 仿照商汤发布的 EASI 测评平台思路,为自己企业的工地,整理一套“空间智能题库”
- 例如:100张高处作业照片、50段吊装视频、若干BIM+现场对比样例
- 按季度测试不同模型的表现,用数据说话,而不是听厂商PPT
-
结合BIM和现有智慧工地平台做系统集成。
- 不要另起炉灶建一个“空间智能平台”,而是在现有的视频平台、BIM平台里嵌入模型
- 优先替代人工高频、重复且主观性强的判断环节
-
中期再考虑行业级自有大模型。
- 当你手上有了一定规模的空间标注数据和实际应用经验,再去谈“企业级建筑大模型”更稳
- 届时可以把通用空间模型+建筑业务知识+企业私有数据融合,真正形成差异化能力
这条路线的核心逻辑是:先用成熟的空间智能能力带动业务变革,再反过来用业务数据喂养自己的模型。
结语:智慧工地真正需要的,是“会看现场”的AI
过去几年,“AI+建筑”更多体现在:自动写标书、算量、做计划。这些当然有用,但都还停留在“办公楼里的智能”。而工地一线最迫切的,其实是一个能看懂现场、会判断空间风险的“智能安全员、智能工长”。
像 SenseNova-SI 这样在空间智能上超越 GPT-5 的开源模型,让这件事第一次变得现实:
- 三维空间理解不再是少数公司的专利,而是全行业都能用、能二次开发的基础能力
- 智慧工地有机会从“看视频”升级到“理解现场”,从“事后分析”升级到“事前预警”
对中国建筑业来说,下一步真正值得投入的,不只是“有没有大模型”,而是:
我们能不能率先把空间智能、世界模型和具身智能,真正用在复杂施工现场,让AI学会走进工地、看懂工程、参与决策。
如果你的企业正规划新一轮智慧工地升级,不妨从一个简单的问题开始内部讨论:
明年的工地上,哪一件事,最适合先交给“会看空间的AI”来做?