商汤开源空间智能大模型在多项评测上超越GPT-5,这对BIM、施工模拟和智慧工地意味着什么?建筑企业该如何利用这波机会。

引言:工地上,AI最大的问题不是“不会算”,而是“看不懂”
大多数建筑企业在谈智慧工地、BIM协同、数字孪生时,习惯性把重点放在“算得准”“排程快”“报表全”。但真正落地到现场,问题往往卡在一个看似朴素的点:AI根本“看不懂”三维空间。
吊装路径规划做不好,钢筋绑扎识别错位,塔吊碰撞预警误报、漏报,很多时候不是算法不够聪明,而是模型对空间结构、视角变化、物体关系没搞明白。
2025-11,商汤发布并开源的 SenseNova-SI 日日新·空间智能大模型系列,在多个权威空间智能评测中,不只是碾压同量级开源多模态模型,甚至在空间理解与推理任务上,整体成绩超过 GPT-5 和 Gemini 2.5 Pro 等闭源顶级模型。这件事对建筑行业和智慧工地的意义,被很多人低估了。
这篇文章,我想站在“AI在中国建筑行业的应用:智慧工地”这个系列的视角,聊清楚三件事:
- 商汤这次在空间智能上到底突破了什么?
- 这种能力,怎么直接作用到 BIM、施工模拟和现场管理?
- 建筑企业今天能做什么,去提前布局这类开源空间智能模型?
一、商汤空间智能模型厉害在哪:不是“会画图”,而是“会想三维”
结论先说:SenseNova-SI 让通用大模型第一次在空间理解上“像个人”,而不是只会做题。
1. 多项评测超过 GPT-5,这不是刷分游戏
SenseNova-SI 目前开源了两个规格:2B 和 8B。在四个主流空间智能评测(VSI、MMSI、MindCube、ViewSpatial)上的平均成绩中:
- SenseNova-SI-8B:60.99(平均分)
- GPT-5:49.68
- Gemini 2.5 Pro:48.81
- 开源多模态 8B 级模型(如 Qwen3-VL-8B):40.16 左右
- 专门做空间智能的模型很多也停留在 35~36 分区间
也就是说,在相对轻量的 8B 规模下,SenseNova-SI-8B 在空间任务上既超过了开源同行,也超过了闭源“巨头”。这不是简单堆参数,而是训练范式换了思路。
2. 解决的是“人类小孩都能做对,模型却反复犯错”的问题
从商汤给出的对比案例可以看出来:
- 立体几何俯视图选择:
- 人类小学生题型,GPT-5选错,SenseNova-SI选对。
- 从一张照片判断“我站在摄影师的位置,摩托车在左还是右”:
- GPT-5会搞反左右,SenseNova-SI能推理正确。
- 多车道道路里,预测黄色车辆是直行、转弯还是静止:
- GPT-5判断为静止,SenseNova-SI判断为右转,且与真实标注一致。
这些题型背后的本质是:
给定一个或多个视角,模型要在脑中构建一个三维场景,再做空间推理。
对智慧工地来说,这和“根据现场多机位摄像头视频,理解塔吊、人员、车辆在场地中的真实方位与运动关系”是同一类能力。
二、从“会说话的AI”到“会理解工地空间的AI”
大语言模型早就能写合同、写方案,但要让它真正上工地,必须补的一课就是空间智能。
1. 为什么通用大模型在空间上普遍拉胯?
原因其实很简单:
- 训练数据以文本和二维图片为主,对三维结构、空间逻辑几乎没有系统性标注。
- 任务多集中在对话、知识问答、代码、文案,极少有高质量、大规模的空间推理任务。
- 很多“会看图”的模型,本质只是图像识别+语言生成,缺的是内在“世界模型”。
结果就是:
- 解释施工现场照片没问题:能说出“塔吊、脚手架、安全帽”。
- 但要它判断“这个塔吊回转 30° 会不会扫到临边作业平台”,基本全军覆没。
2. 商汤做的事:给模型补上一整套“空间课”
商汤给 SenseNova-SI 设计了一套空间能力分类体系,并针对六大核心维度系统扩充数据和训练:
- 空间测量:距离、高度、面积、体积感知
- 空间重构:从多视角照片还原场景结构
- 空间关系:前后左右、上下内外、相对位置
- 视角转换:变换视点后的观察结果推理
- 空间形变:构件移动、旋转、拆装后的状态
- 空间推理:基于三维场景做行为预测、结果推断
这套范式验证了一个关键观点——空间智能同样存在“尺度效应”:
只要有足够大、足够干净、结构设计合理的空间数据集,模型的空间理解能力是可以系统性、持续地被拉升的。
对建筑行业研发团队来说,这其实是一个信号:
“智慧工地专用大模型”完全可以沿用这套思路,在通用基座模型上,通过领域空间数据做二次增强,而不是从零开始造轮子。
三、空间智能如何落地智慧工地?五个直接可见的场景
如果你正在推进BIM、数字孪生或智慧工地平台,SenseNova-SI 这样的空间智能模型,最现实的价值在于五类场景。
1. BIM+AI 的三维理解:从“能看”到“能问、能查、能诊断”
传统 BIM 平台普遍有两个痛点:
- 模型太重,只能给工程师玩;
- 非专业人员看不懂三维,只能依赖工程师解释。
有了空间智能模型,可以做出明显不一样的交互:
- 自然语言问 BIM:
- “这栋楼 3F~5F 楼板实测厚度偏差超过 10mm 的区域在哪里?”
- “这个机房内所有设备的维护通道是否满足 800mm 净空?”
- 自动检查设计冲突:
- 不是简单的“几何碰撞”,而是理解空间关系后给出“人能不能过去”、“设备能不能装”、“吊装路径是否合理”的判断。
背后正是空间测量、空间关系、空间推理三种能力的组合应用。
2. 施工模拟与方案比选:AI 理解“施工顺序”和“空间占用”
在传统施工模拟里,四维(3D+时间)排布大多由技术工程师手工设置、调整,效率极低。
空间智能模型可以做的包括:
- 在统一的工地三维模型里,理解:
- 吊装设备占用范围
- 临建、材料堆场、通道的相对位置
- 不同时间段作业面的重叠情况
- 自动给出方案评价:
- “这个塔吊布置方案,在主体施工阶段,与外脚手架之间的最小安全距离是多少?”
- “这两套材料堆场布置,哪一套能减少搬运距离 15% 以上?”
这类问题,对于只会“看平面图”的AI来说几乎无解,对有空间重构与视角转换能力的模型则是常规操作。
3. 施工质量与安全巡检:从监控视频中“复原”现场空间
今天很多智慧工地的监控系统,停留在:
- 识别有没有戴安全帽;
- 识别人有没有进入禁入区。
往前进一步,需要的是从多机位视频“还原”施工现场的三维状态:
- 判断塔吊吊钩、钢丝绳与临近构件、临边的空间距离;
- 分析脚手架连墙件、剪刀撑等构造是否按设计空间布置;
- 从不同机位推理同一人员的真实位置和行进路线,判断是否穿越高危区。
这正对应了 SenseNova-SI 在 MindCube 等基准上表现优异的能力:
给定多个视角图像,判断相机移动方向、物体相对位移和空间结构变化。
换句话说,有了更强的空间智能,监控不只是“看见”,而是“看懂他在哪里、在干什么、会怎样”。
4. 施工进度管理:让“视频对点施工计划”变成现实
很多企业做“视频+进度管理”的尝试时,会发现两大难点:
- 现场视频很乱,很难和 BIM 模型中的构件一一对应。
- 即便做了视觉识别,也难以准确判断“这个构件究竟是不是按设计的位置安装完了”。
空间智能模型加入后,可以:
- 从视频中识别当前视角下有哪些构件已经成型;
- 通过形状、相对位置、视角转换,把这些构件与 BIM 模型中的构件进行空间对齐;
- 自动生成“空间对比结果”:
- 哪些构件已完工
- 哪些构件偏位/缺失
- 哪些区域施工次序与计划不符
这类“视频自动对点进度”的能力,离不开空间重构、空间关系与空间推理三项能力支撑。
5. 机器人与无人设备:空间智能是“具身智能”的核心能力
商汤在空间智能之外,还有“悟能”具身智能平台、“开悟”世界模型,这些其实和建筑场景非常贴边:
- 施工机器人(打磨、抹灰、喷涂)需要理解墙面、洞口、梁柱的空间结构;
- 巡检机器人需要在复杂工地环境中规划行走路线,识别临时障碍物;
- 无人机巡检需要根据 BIM 模型自动生成飞行路径,对三维缺陷进行定位。
所有这些,都离不开在真实三维世界中进行空间理解和动作推理的能力。SenseNova-SI 这样的模型,可以成为机器人、大设备“脑子里的空间模块”。
四、对建筑企业的启发:现在就可以做的三件事
开源意味着门槛被拉低,但能不能用好,取决于你怎么设计自己的路线图。
1. 明确“场景优先”,别一上来就想着做“大一统模型”
我的建议是:
- 优先挑选 1~2 个空间逻辑强、收益明显的场景 切入:
- 比如“塔吊防碰撞+视频联动预警”、
- “BIM 模型自动空间审图”、
- “进度视频自动对点”。
- 在这些场景上,把 SenseNova-SI 当作“空间大脑”,外面再套业务逻辑和规则引擎。
大一统的平台愿景可以有,但落地得从“一个个可量化收益的小场景”开始。
2. 建立自己的“空间数据资产”,而不是只用通用数据
商汤证明了:空间智能也有“数据规模效应”。对建筑企业来说,真正稀缺的不是算法,而是“结构化的空间数据”。
可以从现在开始积累的包括:
- 带空间标注的施工照片/视频(视角、拍摄位置、大致朝向);
- BIM 与现场实景的对齐数据(构件 ID 与实景区域对应关系);
- 典型安全事故或质量问题的三维复盘数据(“当时构件在哪、人员在哪”);
- 机器人/无人机巡检路线与对应图像的历史记录。
这些数据未来都可以用在 基于 SenseNova-SI 的领域微调 上,形成企业级“工地空间智能模型”。
3. 技术路线可以很现实:基座+空间增强+行业微调
不需要重造轮子,一个比较务实的技术栈是:
- 选择一款成熟的多模态基座模型(如 InternVL 系列等);
- 参考商汤的空间能力训练范式,引入 SenseNova-SI 这类空间增强方案;
- 在此之上,用企业自有建筑场景数据做小规模微调,专注特定工种、特定类型工地。
这套路线的优势是:
- 成本可控:复用开源基础,减少算力投资;
- 见效快:往往在几个月内就能在一个细分场景跑通;
- 可持续:后续每年只要持续增加数据,模型效果会越来越好。
结语:智慧工地的下一步,不是多装几个摄像头,而是让AI真正“有空间感”
如果说前几年的智慧工地更多是在做“可视化”和“流程上云”,那接下来的升级版,就会转向:
让 AI 真正理解三维工地环境,在空间层面替人去“看、想、判断”。
商汤 SenseNova-SI 在空间智能上超越 GPT-5,本质上是在告诉行业:
- 空间理解这块短板,已经可以被系统性补齐;
- 三维世界不再是通用大模型的盲区;
- 建筑业完全可以站在通用空间智能的“肩膀”上,做自己的行业级智慧工地模型。
对正在推进数字化转型的建筑企业来说,现在是一个不错的时间点:
- 重新审视现有 BIM、视频监控、进度管理系统,看哪些地方真正需要空间智能;
- 从 1~2 个高价值场景入手试点引入空间智能模型;
- 把工地三维数据,当成企业未来 3~5 年最重要的数字资产之一来运营。
智慧工地的竞争,正在从“谁先装系统”转向“谁的系统更懂空间、更懂现场”。
如果你希望接下来的项目,不再只是“挂着AI的牌子”,而是真正在安全、质量和效率上拉开差距,那现在就值得把空间智能列进你的技术规划里。