爱诗科技ARR破4000万美金,背后是一整套被市场验证的AI视频与智能体能力。建筑行业如何把这些成熟能力迁移到智慧工地?本文给出三条可落地路线。

作为一家AI视频公司,爱诗科技的年度经常性收入(ARR)已经突破4000万美金,用了不到一年时间把收入做到了10倍增长。这不是简单的“资本故事”,而是一个信号:能经受市场检验的AI能力,正在进入大规模行业落地阶段,其中就包括建筑业和智慧工地。
这篇文章会先拆解爱诗科技这次融资和产品数据背后的逻辑,再对标建筑行业的数字化需求,具体分析:**AI视频与智能体技术,能怎样迁移到智慧工地的安全监控、工程管理和协同场景里。**如果你在建筑企业负责信息化、数字化或项目管理,这会是一个判断AI项目可行性的“对标样本”。
一、从1亿元B+轮融资,看懂“可持续”的AI能力
爱诗科技完成1亿元人民币B+轮融资,此前刚拿下超6000万美元B轮,ARR突破4000万美金、MAU超过1600万、全球用户规模破1亿。对建筑企业来说,这些数字的意义很现实:它证明了一类AI能力已经“跑通商业模式”,而不是实验室里停留在Demo阶段。
这些指标至少说明了三件事:
-
技术稳定可用:
- 自研视频生成大模型两年内完成五次迭代、八个版本
- 已经能做到准实时生成、高一致性、音画同步
- 对应到工地,就是:算法不是“一天好一天坏”,而是能长期稳定跑在生产环境里的成熟度
-
产品体验被普通用户验证过:
- 面向C端的大规模用户,意味着对易用性的打磨已经非常充分
- 通过“Agent创作助手”降低使用门槛,用户不用懂prompt就能出片
- 对应到智慧工地:如果一线工长、监理都能上手,而不是只有IT部门能用,这类产品才有真正推广价值
-
商业模型可持续:
- 主要收入来自订阅制会员+API开放平台
- API半年生成视频破1000万,单月调用量翻倍
- 对建筑企业而言,这意味着:你可以按需、按量采购AI能力,而不用一次性做巨额定制开发
换句话说,爱诗科技今天在消费级和内容产业验证过的东西,很可能就是明天建筑行业在“智慧工地”里可以买到、用得起、用得稳的AI能力类型。
二、爱诗科技核心能力拆解:与建筑场景高度契合的部分
如果只从“AI视频平台”这个标签看,爱诗科技似乎和建筑没什么关系。但把技术能力拆出来,你会发现有些模块与智慧工地的核心诉求非常接近。
1. DiT架构视频生成:复杂场景的时空理解
爱诗科技是国内首个发布DiT架构视频生成模型的创业公司。DiT天然擅长处理时序信息和复杂画面变化,在消费侧体现为:
- 动态效果更流畅
- 画面细节更清晰
- 长视频的一致性更好
迁移到工地,会带来什么?
- 对施工现场多工种、多机械、多人员的时空关系感知更稳定
- 能更好理解“连续动作”,例如:
- 钢筋绑扎是否按规范连续完成
- 塔吊、吊车运行是否存在异常轨迹
- 危大工程作业过程是否有中途违规
一句话:视频模型越强,越有可能在复杂、混乱、光照多变的工地环境里保持高识别率。
2. 一致性与多主体生成:从“好玩”到“可用”的关键
PixVerse在角色驱动视频生成、多主体一致性方面已经跑在全球前列,这在娱乐领域表现为:
- 同一个角色在多段视频中保持形象统一
- 多人物互动时,关系、动作连贯
放在工地,是另一个维度的价值:
- 人员身份一致性:
- 识别“是否为同一个持证焊工”在不同作业点施工
- 识别“是否由本班组人员”进入特定作业面
- 物资与机械一致性:
- 跟踪同一批钢筋、模板、机具的流转路径
- 识别是否有“错设备”“错材料”进入关键环节
现在很多所谓“AI安全帽识别”“区域闯入预警”做不到这一层,一旦视角变化、光线变差就容易乱报;而视频生成模型训练出的时空一致性能力,恰好是补齐这块短板的重要方向。
3. 准实时生成与音画同步:为“实时预警”打地基
爱诗科技已经在消费层做到准实时生成视频、音画同步。这背后包含的,是从算力调度、模型优化到工程架构的一整套能力。
对智慧工地来说,这些底层能力可以转化成:
- 实时违规行为识别+语音播报提醒
- 实时进度偏差识别+自动生成“简易视频日报”
- 危险行为(未系安全带、高空抛物、交叉作业)快速识别+联动大屏提醒
很多建筑企业担心:“AI分析视频会不会太慢?”
爱诗科技用C端产品证明了一点:在上亿量级用户请求下依然能做到准实时,说明从工程实现上,‘实时AI+视频’并非遥不可及。
4. Agent创作助手:从“写prompt”到“说人话”
PixVerse V5推出的Agent创作助手,让普通用户用自然语言描述需求就能生成专业视频,不必学习复杂prompt。
把同样的交互理念搬到工地,可以是这样的:
- 工长对着手机说:“帮我生成今天三号楼主体结构施工的进度视频汇报,重点标出未完成的梁板和当天安全隐患。”
- 系统自动:
- 读取当天摄像头视频
- 抽取关键片段
- 叠加AI识别结果(进度、质量、安全)
- 合成一段带字幕、重点标注的汇报视频
这就是智慧工地从“堆功能”到“堆体验”的分水岭:
- 不是再给管理者多一个复杂系统,而是给他一个“能听懂人话的AI助手”。
三、从社交爆款到行业落地:智慧工地可以学什么?
爱诗科技的增长逻辑里,有几件事非常值得建筑企业借鉴。
1. 模板化创意 = 模板化工地场景
PixVerse在全球范围通过特效模板和场景模板驱动增长,比如:
- “3D Figurine Factory”模板带动多国日活增长超200%
- “Earth Zoom Challenge”成为展示家乡风景和创意叙事的窗口
背后的逻辑是:用标准化模板,降低创作门槛、放大复用价值。
对智慧工地,这个思路可以直接平移:
- 安全管理模板:
- “高处作业规范检查”
- “塔吊运行安全巡检”
- “临边防护完好度评估”
- 进度管理模板:
- “结构封顶阶段视频日报”
- “关键线路节点自动对比计划/实际”
- 质量管理模板:
- “混凝土浇筑全过程留痕视频+AI质检”
做法不是每个项目都重新定义需求,而是:
- 先把10~20个高频场景做成“AI视频+分析模板”
- 不同项目按模板选用+少量参数调整
这种**“模板化+参数化”的AI应用方式,才是真正可规模复制的智慧工地方案。**
2. 社区与生态:让更多人参与AI,而不是少数专家
PixVerse通过创作者社区、二次创作模板、开放API等方式,让全球创作者参与平台成长。
智慧工地如果也想越做越好,思路应该是:
- 不把AI系统封死在“总包信息化部”手里
- 而是让:
- 项目经理能定义自己的“巡检模板”
- 安全员能反馈“误报类别”,协同优化模型
- 分包也能通过简单接口接入自己的数据
建筑业常见的问题是:系统越上越多,真正用的人越少。AI项目如果不把“使用权”下放到一线,最终只会变成另一个“展示用大屏”。
3. 从娱乐到生产:底层技术不分行业
爱诗科技今天服务的是C端用户、创作者、影视行业;但支撑这些需求的核心,本质是同一组能力:
- 视觉理解
- 时序建模
- 场景生成
- 多模态交互
建筑企业在选型AI合作伙伴时,完全可以把这类公司当作**“底层视觉与视频能力供应商”的参考样本**,提出更明确的要求:
- 是否具备大规模视频处理经验(上亿级别请求)
- 是否能做到准实时处理
- 是否支持多主体、一致性识别
- 是否有易用的“场景模板+API接口”
四、建筑企业可以怎么借力:落到智慧工地的三条路线
如果以爱诗科技的技术路径为参照,建筑企业在2026年前后布局“AI+智慧工地”,可以重点从三条路线入手。
路线一:从视频监控升级为“视频理解”
现在大部分项目的视频监控只停留在“取证”和“远程查看”,AI只是零散做了几个安全帽识别点位。可以考虑直接把目标升级为:视频理解系统。
可行的第一步:
- 选1~2个重点项目作为试点
- 选3~5个高价值场景(比如高处作业、塔吊运行、深基坑作业)
- 使用具备强视频理解能力的AI服务商:
- 连通已有摄像头
- 打通施工计划数据(BIM/进度计划)
- 输出可视化的“风险事件+进度偏差”的短视频报告
关键点:不要先追求全覆盖,而是先把几个典型场景做扎实,让项目团队真正在日常管理里用起来。
路线二:把“视频汇报”交给AI做
爱诗科技已经证明:AI可以高质量地合成、剪辑视频。建筑业完全可以把这件“费时又低价值”的活交给AI。
可以尝试的做法:
- 每日/每周工程汇报:
- 系统自动抽取当天视频的关键片段
- 叠加AI识别的文字标签(完成楼层、设备数量、安全事件)
- 生成带时间轴的短视频汇报
- 安全教育素材制作:
- 把历史事故视频+规范动作,通过AI重新生成标准化教学视频
- 配上语音讲解和关键提示
相比传统“拍照+PPT”,AI视频汇报既更直观,也更容易在集团层面沉淀成知识资产。
路线三:用Agent理念重做智慧工地入口
今天很多智慧工地平台的使用体验是:入口多、功能散、要不停切换系统。爱诗科技的Agent创作助手给了一个更好的方向:用一个智能入口,串起多个底层能力。
在建筑场景,可以是:
“我想看今天所有高处作业的风险情况,并生成一份5分钟会议汇报视频。”
系统自动:
- 检索相关摄像头视频
- 调用视觉模型做行为识别
- 结合当天施工计划判断是否偏离
- 组织成一个结构清晰的视频+要点清单
长期看,智慧工地不应该再用“模块罗列”的方式设计,而是以‘对话+视频’的交互为主入口,底层由AI调度各类能力。
五、从爱诗科技看2026年前后的智慧工地走向
爱诗科技用一年时间,证明了一件事:**AI视频和智能体技术已经不只是“能做”,而是“能赚到钱、能持续演进”。**这对建筑业是一个很强的参考信号。
如果你在做智慧工地项目,建议用三句话给自己做个“体检”:
- 我们现在在做的,是简单的“监控+识别”,还是在往“视频理解+智能汇报”走?
- 我们的系统,以“表单和菜单”为主,还是正向“对话+视频”这种更自然的交互靠拢?
- 我们的AI供应商,有没有在其他行业被大规模验证过视频能力(而不是只给我们做一个定制项目)?
建筑业向来重视“样板工程”。在AI时代,像爱诗科技这样的公司,就可以看作是一类技术路径的“行业样板”——不是要照抄,而是要对标成熟能力,把真正有商业生命力的AI能力迁移到智慧工地。
接下来几年,谁能把“AI视频+智能体”真正用在安全管理、进度控制和多方协同上,谁就有机会在建筑数字化转型的下一轮竞争里,提前一个身位。