Codex 用 18 天做完 Sora 爆款应用,背后那套“智能体三层系统”,正是中国智慧工地真正缺的东西。关键不在模型,而在你敢不敢让 AI 真正接管现场任务。

在 OpenAI 内部,一个叫 Codex 的编程智能体,帮团队用 18 天做完 Sora 安卓版、28 天冲上应用商店第一;过去 6 个月,使用量 增长 20 倍,模型能 连续工作 24~60 小时。
大多数建筑企业在做“智慧工地”时,一边喊着要上 AI,一边还在为进度计划、质量巡检、资料归档这些基础问题头疼——效率卡在人工填表、人工跟催、人工审阅上,跟现在的软件世界很像:AI 已经能写大部分代码,人类却被困在“审查、确认、签字”这些环节里。
这篇文章,我想用 Codex 的故事,给中国建筑行业讲一堂很现实、很落地的“智慧工地 AI 课”:
- 编程智能体是怎么做到 20 倍效率提升的?
- 它的三层架构,和我们说的 BIM 协同、施工现场数据中台,有什么共通点?
- 长时任务、24 小时不停跑的智能体,如何对应到安全监控、质量巡检、进度管控?
- OpenAI 的“先射击再瞄准”,对建筑企业推进智慧工地项目有什么启发?
一、Codex 做对了什么:从“太未来”到“人人能用”
Codex 一开始其实是失败的——和很多“智慧工地一期项目”一样。
早期的 Codex 放在云端,异步交互:很强大,但 门槛太高,只适合极客。就像很多工地上部署了一个“遥远的云平台”,只有信息化部门偶尔登录,现场班组长根本懒得用。
真正的拐点只有一个动作:
把 Codex 从“云端玩具”拉回工程师日常工作的 IDE 里。
对智慧工地来说,这句话等价于:
别指望工长每天打开一个单独的“智慧工地 APP”,而是要把 AI 放进他已经在用的工具里——比如钉钉、微信小程序、项目管理系统、BIM 浏览器。
Codex 的经验,很适合直接照搬到建筑现场:
- 场景要嵌入,而不是平移。
- 编程智能体嵌入 VS Code;
- 施工智能体要嵌入:进度计划软件、质量验收表单、塔吊黑匣子、视频监控平台。
- 交互要“就手”,而不是“高大上”。
- 工程师是写代码顺手;
- 现场管理是点开微信群、扫二维码顺手。
Codex 团队的判断很直接:
真正的智能体,不是一个更强的模型,而是 模型 + API + 框架 的整体系统。
对智慧工地来说,对应就是:
模型(算法)+ 现场数据接入(IoT/BIM/API)+ 业务框架(流程、制度、奖惩)。
今天很多建筑企业只买了“一个模型”或“一个平台”,却没有把三者组合成“能自己跑起来的系统”,这就是为什么项目结项漂亮、落地却很难的根本原因。
二、Codex 的“三层齿轮”和智慧工地的“三层系统”
Codex 能连续工作几十小时,背后靠的是一个叫 “压缩(compression)” 的机制:
- 模型层:负责理解、推理、总结关键信息;
- API 层:把长任务拆解成可执行的步骤,并维护“压缩”后的上下文;
- 框架层:保证任务能稳定运行、断点恢复、沙箱执行。
这套结构,和理想的智慧工地架构,非常像:
- 模型层 = 各类 AI 能力
- 进度预测、质量缺陷识别、安全行为识别、能耗预测等;
- API 层 = 数据中台 / BIM 协同平台
- 把塔吊、升降机、视频监控、人员定位、材料进场等数据统一成“工序、构件、责任人”的语言;
- 框架层 = 管理制度 + 业务流程 + 权限体系
- 谁收到预警、谁能下指令、谁有权停工、谁要在什么时间节点确认。
Codex 解决的是“模型上下文撑不住长任务”的问题;智慧工地解决的是“项目周期太长、参与方太多”的问题,本质上是一回事:
让 AI 在一个跨天、跨周、甚至跨月的任务链条里,始终知道自己在第几步,应该干什么。
对建筑企业来说,可以直接对标 Codex 的“压缩 + 长时任务”,设计几类典型智能体:
- 进度智能体:
- 每天自动读取 BIM 形象进度、施工日志、材料到货;
- 按工序自动汇总“关键路径风险”,给项目经理一个压缩后的“进度日报”;
- 连续跟踪 30~60 天,形成进度趋势与偏差模式。
- 安全智能体:
- 24 小时读取视频流、塔吊实时数据、人员定位;
- 像 Codex 一样“压缩记忆”:不保存所有原始视频,而是保留“疑似违规片段 + 统计特征”;
- 对班组、工种、时间段做“风险画像”,辅助安监员排班和重点巡查。
- 质量智能体:
- 自动读取实体检测记录、试验报告、巡检照片;
- 对典型构件(剪力墙、楼板、防水节点)建立“缺陷模式库”;
- 给项目总工一个“本周质量隐患 Top10 列表+建议整改优先级”。
如果没有这三层齿轮,所谓“智慧工地 AI”就会沦为:若干分散的算法 demo + 一堆没人看的大屏。
三、从“规范驱动开发”到“聊天驱动工地”:AI 要贴着人跑
Cursor CEO 提过一个概念:“规范驱动开发”——写清楚需求规范,让 AI 去写全部代码。听起来很高级,对吗?
Codex 负责人 Alex 的观点相当直接:
不是所有人都爱写规范, 现实工作更多是“聊天驱动开发”。
这句话,对工地尤其适用。
想象下现在的施工现场:
- 很少有人会认真写“完备的施工组织设计再执行”;
- 真正决定事情进度的,是 微信群、电话、现场碰头会 里的对话;
- 安全员“拍照+发群里”,比在系统里录入快太多。
所以,把“规范驱动开发”的思路照搬到工地,通常会变成:
- 让一线人员多写报告、多填表、多点系统;
- 然后寄希望于“AI 会从这些结构化数据里挖掘价值”。
现实是:人不会配合你完成这个前提。
Codex 给的另一条路径更务实:
让 AI 进入“聊天场”,而不是把人拉进“系统场”。
在智慧工地里,这可以是:
- 在项目微信群、钉钉群里,部署一个“工地智能助手”:
- 自动识别聊天里的“任务”:比如“明天 3 号塔吊要加班”、“今天 5 层混凝土有蜂窝麻面”;
- 把这些“任务”结构化,自动生成待办、日志、整改单草稿;
- 主动提醒相关责任方,而不是等人去系统里翻。
- 在质安巡检小程序中,摄影之后 AI 自动:
- 识别问题类型、部位、标准条款;
- 生成整改单和复查计划;
- 进入后续闭环跟踪,而不是停留在“拍照留痕”。
核心不是让一线工人变成文档专家,而是让 AI 理解他们自然的表达方式。
就像工程师不需要写长规范,直接和 Codex 聊天、改代码,AI 也应该学会“听得懂现场普通话和工地黑话”。
四、人类是瓶颈:从打字速度,到审批速度
Alex 有个很“刺耳”但很真实的判断:
现在限制 AGI 的最大瓶颈,不是模型能力,而是人类——
- 打字速度有限,
- 审查速度有限。
把这句话放在智慧工地上,几乎一模一样:
- AI 能 24 小时看视频,但停工决定要等项目经理签字;
- AI 能自动生成风险报告,但安委会要一周开一次;
- AI 能预测 3 周后的进度风险,但变更计划要走多级审批。
结果就是:
模型早就能“跑起来”, 但管理流程把它“拴住了”。
要真正发挥智慧工地里的 AI 价值,我建议从三个方面动手:
1. 提前划定“AI 自主权限”
就像 Codex 在 OpenAI 内部,会被授予部分“自动修复脚本、重启任务”的权限,建筑企业也需要给工地智能体预设几个明确的“自动动作”:
- 安全智能体:
- 对某些高危行为(未系安全带、洞口未防护),可以自动拉响本区域语音警报,不用等人审批;
- 进度智能体:
- 发现关键工序资源不到位,可以自动发起跨部门协调提醒;
- 质量智能体:
- 识别重复出现的同类问题,可以自动要求班组开展班前质量培训,并记录。
关键在于:
把“必须人工拍板”的环节收缩, 把“可自动提醒、自动执行”的环节前移。
2. 让 AI 先自查,再交给人审
Codex 的一个重要设计是:
模型先自我验证,再交给工程师审查。
聪明的智慧工地系统也应该这样:
- 视频 AI 识别出安全隐患后,先用多路视角、历史记录交叉验证,缩小误报;
- 进度预测模型给出风险判定时,先校对:天气、供应计划、劳动力计划;
- 质量缺陷识别先对照设计图纸、混凝土强度、施工时间,过滤“无关紧要的瑕疵”。
人类的审查精力是稀缺资源,AI 不应该把“原始结果”一股脑丢给项目经理,而是 先帮他把 100 条噪声压缩成 5 条真正需要拍板的决策。
3. 把审批流程设计给“未来的 AI”而不是“过去的流程”
很多建筑企业做数字化时,只是把线下流程 1:1 搬进系统,最后得到的是:
电子化的繁琐,而不是智能化的简化。
当你准备在智慧工地上引入 AI 时,最好反过来思考:
- 如果未来 80% 的信息收集、初审、整理都由 AI 完成,
- 人只在关键节点决策,
- 那你的审批流应该长什么样?
这会强迫你删掉大量没必要的“中间环节”,为智能体真正接管更多自动动作打基础。
五、从 Codex 到智慧工地:建筑企业可以立刻做的三件事
把 Codex 的实践拉回到中国建筑场景,我会建议企业按“三步走”来规划智慧工地 AI:
第一步:选对“棘手问题”,别从最简单的开始
Alex 明说了:
Codex 的正确用法,是拿最棘手的问题喂给它,而不是最简单的。
智慧工地也是一样:
- 不要从“自动考勤”“线上打卡”这种鸡肋功能开始;
- 直接找 真正拖慢项目、消耗大量管理时间的痛点:
- 高支模安全管控、深基坑监测、总进度关键线路、混凝土质量稳定性、塔吊群塔防碰撞等。
只要第一个场景真解决了“连项目总都头疼”的问题,AI 在项目上的地位就完全不一样。
第二步:用“模型 + 数据 + 流程”三层框架做设计
照着 Codex 的三层架构,把每个智慧工地 AI 项目拆成:
- 模型层:
- 我们到底要用什么算法能力?图像识别?时序预测?大模型文本理解?
- 数据 & API 层:
- 这些算法怎么和现场塔吊、视频、BIM、进度计划、材料系统连起来?
- 数据标准用什么?工序粒度怎么定义?构件怎么编码?
- 框架层:
- 有了识别结果之后,谁看?谁处理?系统能自动做什么?什么必须人来做?
如果三层里有一层是“模糊的”,项目落地后大概率就是“好看不好用”。
第三步:试点项目上用“先射击再瞄准”的节奏
OpenAI 的文化是:
先射击,再瞄准。
因为没人一开始就知道 AI 产品会被怎么用,只能先推出一个版本,拿真实反馈调路径。
这对建筑企业做智慧工地同样适用:
- 把一个试点项目当成“产品试验场”,不是“彻底定稿的样板工程”;
- 接受一开始的功能不完美,但只要真实使用,就能快速迭代;
- 关键在于:项目团队自己要真用,而不是“演示用一次、专家参观用一次”。
说得更直白点:
别指望一次招标把“未来 5 年的智慧工地方案”买回来, 而是要把试错和迭代的权力,握在自己手里。
结语:当 AI 接管代码,谁来接管工地?
Codex 已经在软件世界证明了一件事:
写代码这件事,AI 可以做得又快又久, 真正的瓶颈,变成人类的决策与审查。
建筑行业也会走到同样的一天——
- 视频监控 24 小时由 AI 看;
- 进度和资源由 AI 滚动预测;
- 质量问题由 AI 抓拍、分类、生成整改单;
- 项目经理不再被“信息收集”拖住,而是专注在关键决策和资源博弈。
现在的问题不是“AI 能不能做到”,而是谁先把 Codex 式的“三层智能体思维” 引入智慧工地:
- 谁先敢把 AI 从“云端大屏”拉回到一线微信群、巡检小程序、BIM 模型里;
- 谁先愿意改审批流程,给智能体一些真正的“自主权”;
- 谁先从最棘手的问题下手,而不是从最安全的功能做起。
如果你负责企业的数字化、信息化或智慧工地项目,
现在就是重新审视现有系统架构、试点“AI 智能体工地”的好时机—— 明年开始,第一批真正跑通这套体系的项目, 很可能会像 Codex 用户那样,在生产力曲线上一下子“陡起来”。