🇨🇳 用两个问题看懂强化学习，也看懂智慧工地里的AI决策 - China

AI在中国建筑行业的应用：智慧工地•2025年12月16日•By 3L3C

用“数据从哪里来”和“策略更新有多频繁”两个问题，看懂强化学习的底层逻辑，也看懂智慧工地里AI如何做评估与改进。

强化学习智慧工地建筑行业AI施工决策优化BIM与物联网数据驱动施工管理

Featured image for 用两个问题看懂强化学习，也看懂智慧工地里的AI决策

AI学习的底层逻辑，其实和施工优化很像

在大型施工现场，项目经理每天都在做同一件事：先评估今天干得怎么样，再决定明天怎么干得更好。质量不达标要返工，塔吊排班不合理要调整，安全隐患多的区域要加人巡检。

强化学习（Reinforcement Learning，RL）做的事情，本质上就是这一套：评估 + 改进。不同的是，干这件事的不再是人，而是一个可以自我学习的智能体。

上海交通大学与上海期智研究院博士生雷鲲，用两个非常朴素的问题，把这套看似复杂的强化学习体系讲透了：

数据从哪里来？
策略更新有多频繁？

这两个问题不只帮我们看清 RL 的底层逻辑，也非常适合用来思考建筑行业的智慧工地：

工地上的数据到底从哪儿来？
我们多久调整一次施工组织、机械调度和安全策略？

本文就借这两个问题，一边拆解强化学习，一边对照建筑现场的真实需求，看看AI 在智慧工地里的决策能力，究竟是怎么“练”出来的。

一：数据从哪里来？从算法到工地的同一道难题

在强化学习里，“数据从哪里来”是第一个也是最关键的问题；在智慧工地里，这句话同样成立。

强化学习里常说三种数据来源方式：在线、离策略、离线。放到建筑场景中，对应的是三种完全不同的AI落地路径。

1. 在线学习：像“边干边总结”的施工队

在线 RL 的做法，是智能体一边和环境交互，一边立刻用新数据更新策略。代表算法包括 PPO、SAC。

对应到工地，就是那种“师傅每天晚上开碰头会”的队伍：

白天试了一种新的钢筋绑扎工序
晚上就根据产量、质量、工人反馈，立刻调整第二天方案

优点：

适应性强，遇到气候变化、材料供应波动，可以快速重排计划
对复杂、动态环境（例如装配式吊装、超高层施工）特别有价值

缺点：

试错成本高：
- 一次调度失误，可能就是半天塔吊空转
- 一次工序调整不合理，可能就带来大面积返工

这也是为什么，在真实工地上，我们不会允许 AI 像在仿真环境里那样“随便试”，哪怕算法很先进。

2. 离策略学习：把历史经验重复利用到极致

离策略 RL（DQN、DDPG、TD3 等）允许智能体把过去积累的经验反复用来学习，而不是每次都“重新试一次”。

在智慧工地，这种思路非常适合：

项目结束后，我们留下了：
- BIM 模型与实际施工偏差数据
- 塔吊、升降机、混凝土泵车的物联网运行数据
- 安全隐患、质量问题、整改闭环记录
这些数据被放进“经验池”，AI 可以在后台大量重放、学习：
- 什么样的浇筑顺序，最不容易出现冷缝？
- 哪种塔吊协同模式，等待时间最短？
- 哪类作业条件下，安全事故风险显著升高？

离策略学习的价值，用一句话概括就是：

一线施工可以尽量少冒险，而数据中心的模型可以无限次“复盘”。

这正好贴合国内很多房建、基建企业的现实诉求——先让 AI 在历史项目上学够，再上到真实工地做“轻量级在线优化”。

3. 离线学习：高风险场景下，只能靠“已有资料”变聪明

在一些高风险领域，比如医疗、自动驾驶、复杂机器人控制，强化学习会采用离线 RL：模型完全依赖一个固定数据集，在训练阶段不允许再和真实环境交互。代表算法如 CQL、IQL。

建筑行业里，这种方式同样有刚性需求：

超高层核心筒整体提升
大型桥梁整体顶推或转体
爆破拆除、大型吊装等高危作业

这些作业几乎没有“试错”空间，只能：

事先把大量历史工程数据、仿真数据、现场监测数据统一成离线数据集
让算法在离线数据上学到“在什么条件下，哪种操作最安全可靠”

总结一下第一个问题：

在强化学习中，“数据从哪里来”决定了模型能不能安全、高效地成长；在智慧工地中，“数据从哪里来”决定了 AI 是否真的有料可学，能否在不增加一线风险的前提下，持续提升决策水平。

二：策略更新有多频繁？对标施工管理的节奏问题

第二个问题是：策略更新有多频繁？

这听上去是算法内部的技术细节，其实和施工管理的节奏高度相似：

有的项目几乎每天调整计划
有的项目一周一总控、一月一大调整
有的则只在关键节点才大幅改动

强化学习中，也大致可以分为三种更新节奏：

1. 一步式学习：类似“定版施工方案”，不再改动

“一步式学习”的典型是模仿学习：

给算法一个固定的数据集
让它学习一次，得到一个策略
然后直接部署使用，很少再更新

对应到工地就是：

总承包单位组织专家论证，形成一版施工组织总设计
方案一旦定版，后续只是小范围细化，很少大改

适用场景：

安全要求极高、不方便频繁试验
施工工艺较成熟、环境不太剧烈变化

对当前多数建筑企业来说，AI 做进度预测、产能评估、安全风险预警时，往往还是这种“定期训练+长期使用”的范式。

2. 多步式学习：像“月度滚动计划”，稳中带调

多步式 RL 会：

在一批数据上多次更新参数，让性能充分收敛
然后再去收集下一批新数据，继续训练

这和很多项目采用的“月度滚动计划”非常像：

先用上个月的实际完成情况 + 现场反馈，调整本月施工计划
然后在一个月内尽量稳定执行
到月底，再集中复盘，系统性调整

在智慧工地里，如果你：

每天在采集数据（塔吊、混凝土、人员定位等）
但只在每周或每月让模型做一次“整体再训练”

那你已经在实践一种多步式更新的训练策略——既能稳住生产节奏，又能持续吸收新信息。

3. 迭代式在线更新：像“精细化管理”的流水线

迭代式 RL（例如 PPO、SAC 的在线版本）会不断循环：

收集数据 → 评估策略 → 改进策略 → 再收集数据

更新频率可以非常高，几乎是每一小批新数据，都会推动策略向前迈一步。

放在工地，这更像是：

实时监测塔吊队列长度、浇筑温度、关键路径任务进度
系统根据实时数据调整：
- 哪个作业面优先供料
- 哪些工人或班组需要调配支援
- 哪些作业暂缓以降低安全风险

这类高频率AI决策，只有在两种前提下才现实：

数据足够实时、足够可靠（物联网 + 视频AI + BIM 联动）
决策可以小步快跑、可随时回滚（例如调度优先级，而不是一锤子拍板的结构设计变更）

三：“评估 + 改进”：用一个统一框架看算法，也看智慧工地

雷鲲在原文中强调，无论 RL 算法如何变化，本质上都在做两件事：策略评估 + 策略改进。

如果把这一点吃透，很多看上去很“玄”的 AI 决策，就变成了一套可以落地到工地上的“常识性流程”。

1. 策略评估：先问一句——这套做法值不值？

在算法里，策略评估是：

估计“在某个状态下采取某个动作，长期回报有多大”
对比预测回报和真实反馈，纠正误差

换成工地语言，就是：

在当前资源、天气、工期要求下，选择这套施工顺序 / 机械组合 / 人员排布，到底赚还是亏？风险高不高？

结合智慧工地常见数据，AI 可以评估：

质量维度：
- 某种浇筑窗口下，出现裂缝、蜂窝麻面的概率
- 某种装配顺序下，安装误差和返工率
进度维度：
- 不同塔吊协同策略下，关键路径是否被拖慢
- 在雨季条件下继续外装修的效率损失
安全维度：
- 夜间施工 VS 白天施工的事故风险增幅
- 班组疲劳程度和违章概率之间的关系

AI 做评估，本质上就是一个更“冷静”的总工/总经办——基于过去几个月甚至几年的数据，用统计视角告诉你：这套干法，大概率会带来什么后果。

2. 策略改进：在约束之内，往“更好”的方向动一点

有了评估结果，下一步才是“改进策略”。在 RL 中，常见的做法有：

像 PPO 那样，限制新策略不能和旧策略差太多，防止“一把梭哈”把之前学到的一切推翻
像 SAC 那样，引入熵正则，鼓励策略保持一定的探索，多尝试不同动作

放回智慧工地，合理的 AI 调整也应该遵守几条基本原则：

小步快跑，而不是颠覆性重排
- 允许系统每天微调塔吊优先级和混凝土车排队顺序
- 但不允许它在没有充分论证的前提下，推翻整个施工组织设计
保留探索空间
- 在安全可控的前提下，选择少量标段、时段试行新的排班、工序组合
- 用试点结果反哺整体模型，让策略不是“越收越死”，而是不断发现更优解
带约束地优化
- 不以“单一 KPI 最大化”为目标，而是多目标平衡：工期、成本、安全、质量权重可调

一句话：真正可用的智慧工地 AI，本质上就是一套“持续评估 + 受控改进”的决策系统。

四：把 RL 思维带进智慧工地：企业该怎么落地？

如果你是建筑企业的信息化负责人、总工办成员或数字化创新团队，怎么把“数据来源 + 更新节奏 + 评估改进”这套 RL 思维，变成可执行的落地路径？

可以按这四步来设计：

第一步：先回答“数据从哪里来”

列清楚现阶段可用的数据资产：
- BIM 模型、工程量与变更记录
- 物联网设备（塔吊、升降机、混凝土、振捣器、电表、水表等）数据
- 视频监控与安全巡检记录
- 质量验收、缺陷整改、工序报验数据
判断每类业务的安全边界：
- 哪些环节允许“在线试错”（例如调度优先级、小范围排班）
- 哪些必须坚定采用离线/离策略方式（例如高风险吊装、安全红线决策）

第二步：为不同业务选定“更新节奏”

安全预警模型：
- 数据高频更新，但策略可以按周更新
机械调度与排产优化：
- 先用多步式学习（周度更新），成熟后再考虑局部在线迭代
成本与材料计划：
- 更适合月度或阶段性更新，保持稳定性

用一句直白的话：别一上来就追求“实时 AI 决策”，先把“按周更新的靠谱 AI”做出来。

第三步：统一思路——一切都是“评估 + 改进”

对每一个要引入 AI 的业务场景，问三件事：

现在是怎么“评估”的？靠谁，基于什么经验？
AI 能不能把评估这件事做得更量化、更可追溯？
有了更好的评估结果，我们的“改进动作”是什么？能自动化到什么程度？

只有“评估”和“改进”都设计清楚，项目才不容易落成“又一个看不出价值的看板系统”。

第四步：从多步更新走向局部在线迭代

结合当前国内外经验，更务实的路线往往是：

先用历史工程 + 在建项目数据，做多步式离策略 / 离线学习
- 模型能力达到能给出“可信建议”的水平
再选择若干风险较低、流程相对封闭的场景，尝试在线迭代
- 比如塔吊排队顺序优化、材料运输路径推荐

这一点恰好也和雷鲲提到的机器人基础模型实践相契合：

先在大量离线数据上进行多轮训练，用“数据飞轮”持续扩充经验；当模型接近瓶颈，再用在线强化学习做更精细的、任务特定的提升。

对建筑企业来说，这是一条成本可控、风险可控、收益可见的智慧工地 AI 演进路径。

尾声：用简单的问题，管理复杂的系统

很多人觉得强化学习高深莫测，智慧工地的 AI 决策同样让人“心里没底”。雷鲲这篇用两个问题讲清 RL 的文章，其实给了我们一个非常朴素的启发：

再复杂的智能系统，背后往往只是在重复几件简单的事：找到靠谱的数据源，以合适的节奏评估当前做法，然后在约束之内一点点改进。

对于正在推进数字化转型的中国建筑企业来说，真正需要的不是天花乱坠的AI概念，而是一套可解释、可落地、可迭代的思路：

把“数据从哪里来？”当作每个智慧工地项目启动会上的必答题
把“策略更新有多频繁？”写进你的系统设计与管理制度
把“评估 + 改进”变成施工管理、数字化和AI团队共同的语言

当你用这三个视角回头看自己的项目，会发现：

哪些数据该补
哪些决策可以先交给 AI 试着“评估一下”
哪些流程可以从“年更”变成“月更”“周更”，甚至未来走向在线迭代

这时，智慧工地不再只是一个概念，而会逐步变成一个会自己学习的工地。