人工智能在机器人产业•2025年12月19日•By 3L3C

DeepMind两阶段后训练让机器人从模仿走向自我提升。本文结合智能工厂场景，拆解奖励工程、数字孪生与落地三关，给出可执行路线。

具身智能工业机器人强化学习监督微调数字孪生智能制造

Featured image for 工业机器人别再只会模仿：DeepMind两阶段自我提升，指向智能工厂新范式

工业机器人别再只会模仿：DeepMind两阶段自我提升，指向智能工厂新范式

生产线上最“费人”的工作，往往不是拧一颗螺丝，而是调一台机器人。

很多工厂都见过这种场面：新产品一上线、工装夹具一改、来料批次一波动，机器人动作就得重新示教；为了一条稳定的轨迹，工程师在产线旁反复试、反复改。机器人看起来很“自动化”，但它的学习方式仍然像学徒——靠人手把手教，缺少在现场自我练习、自我变强的能力。

DeepMind 最近提出的两阶段“后训练”框架（监督微调 SFT + 自我提升 Self-Improvement）很值得制造业认真看一眼：它把大模型在语言领域常见的“先学会，再强化”的经验搬到机器人身上，核心目标是让机器人从“模仿者”变成“学习者”。对智能工厂而言，这不是学术花活，而是通往更低调试成本、更强任务泛化、更快换线的一条现实路径。

机器人学习的瓶颈：不是缺算法，是缺“可用的奖励”

直接给工业机器人做强化学习（尤其是操作类任务），最大拦路虎并不是算力，而是奖励工程。

强化学习需要奖励函数告诉系统“做得好不好”。在产线里，这通常意味着：

你得定义“成功”的精确判据（插入深度、姿态误差、力矩阈值、节拍限制、良率约束）
你得在真实设备上测量这些判据（传感器融合、标定、数据同步、异常工况处理）
你还得防止策略钻空子（比如用“碰巧触发传感器阈值”的方式拿高分，却把零件顶坏）

现实结果是：很多团队宁愿继续用行为克隆（模仿学习）——把人做过的轨迹录下来让机器人“照着学”。问题也很清楚：

需要大量高质量示教数据，采集成本高
泛化差，一换场景就掉线
真正难的不是“把动作做出来”，而是遇到没见过的偏差时如何调整

DeepMind 的切入点很务实：既然“手工奖励”不靠谱，那就把奖励函数也交给模型，从数据里学出来。

DeepMind 的两阶段后训练：SFT 打底，自我提升拔高

这套框架可以用一句话概括：先用少量示范把“基本功”教会，再让机器人在几乎无人工监督下反复练习，把能力逼出来。

第一阶段：监督微调（SFT）不只做行为克隆

SFT 里有两个训练目标：

行为克隆（BC）：模仿人类轨迹，学会基本操作
剩余步骤预测（steps-to-go prediction）：预测“离完成任务还剩多少步”

第二个目标很关键。它相当于让模型学会一种“进度感”：不仅知道下一步怎么做，还大致知道“现在离成功有多远”。

在智能工厂语境里，你可以把它类比为：机器人不仅学会了装配动作，还学会了判断“装配是否接近完成、还差哪个环节”，这为后续自动构建奖励与成功检测打下基础。

第二阶段：自我提升（Self-Improvement）用数据驱动奖励替代手工奖励

第二阶段的核心做法是：

冻结第一阶段的一个检查点，用它来计算奖励与检测成功
用在线强化学习对策略进行微调，让机器人集群自主练习

重点在于：奖励来自模型的“进度/成功判断”，而不是工程师手写的真值奖励。这样一来，工程投入从“写奖励、修奖励”转移到“准备一份还不错的示范数据 + 保证训练安全边界”。

对制造业最有价值的一句话是：奖励不再是项目的瓶颈，调试成本开始可控。

实验结果透露的信号：少量自我练习，比堆示范数据更划算

DeepMind 在两个机器人平台（LanguageTable 与 Aloha）上做了大量仿真与真实世界实验。对智能工厂读者来说，最值得咀嚼的不是平台名字，而是方法带来的成本结构变化。

研究给出了一个非常“产线化”的对比：

在 LanguageTable 任务中，只增加约 10% 的自我提升训练时间，成功率可从 45% 提升到 75%
如果走传统路线，把模仿数据量 增加 8 倍，成功率却只从 45% 提升到 60%

这意味着什么？

你花钱让工程师做更多示教，不一定换来同等幅度的稳定性
让机器人在可控环境里自己练（甚至多台并行练），收益更高

另外一个对制造业很关键的细节：在真实环境的自我提升阶段，流程高度自动化后，一个人可以监控多台工作站，人只在“积木掉落/超过 5 分钟未重置”等极少数情况介入。

把它映射到工厂现场，就是：当你把“异常处理、治具复位、安全停机”这些机制设计好后，机器人学习过程的人力占用会显著下降。

把研究翻译成智能工厂语言：三条直接可落地的连接点

这篇研究之所以值得制造业关注，是因为它与智能工厂的三类核心诉求高度一致。

1）任务泛化与快速换线：从“示教一次”到“现场自适应”

智能工厂最怕的是小批量多品种：今天装 A，明天装 B，后天来个 A 的改款。传统示教在这种节奏下很难受。

两阶段后训练的价值在于：

SFT 让机器人快速掌握通用动作原语（抓取、对齐、插入、推拨）
自我提升让它在“新工装、新来料偏差、新摆放位置”下通过练习找到稳定策略

我更愿意把它称为：把“换线成本”从人工时间变成机器时间。机器时间便宜得多，也更可预测。

2）数字孪生更有用了：Sim2Real/Real2Sim 不只是仿真演示

研究里还做了仿真与真实之间的迁移（Real2Sim）：用真实数据训练第一阶段，再到仿真里做第二阶段自我提升。

这给智能工厂一个明确方向：

数字孪生不应只用来“看得更清楚”，而应成为机器练兵场
真实产线数据负责“对齐现实”，仿真负责“规模化练习”

实操建议：别追求一开始就把孪生做得完美。先把能影响策略的关键变量建起来（摩擦、间隙、视觉噪声、夹爪柔顺性），让它能支撑自我提升训练闭环。

3）预测性维护与过程优化：奖励函数=新的过程指标生成器

在制造业里，“奖励”可以对应很多过程指标：节拍、能耗、碰撞次数、装配力曲线是否平滑、返修率等。

数据驱动奖励的启发是：

与其让工程师为每个指标写规则，不如让模型从交互数据中学习“好过程长什么样”
当奖励与成功检测更可靠，机器人就能在不打扰生产的边界内做微优化

这为预测性维护也打开了一扇门：如果模型对“进度/成功”敏感，它同样会对“退化”敏感（例如插入力分布变化导致成功概率下降）。把这些信号接到 MES/SCADA/设备健康模型里，价值非常直接。

工业落地的三道关：安全、数据、停止准则

我不建议把这类方法当成“拿来就能跑”的产线方案。要落地，至少要过三关。

安全边界：先把“不会出大事”做成系统能力

自我提升意味着探索，探索就意味着动作分布会变宽。工业现场必须先有：

碰撞检测与安全停机（力/扭矩阈值、视觉禁区、软限位）
风险动作的白名单/黑名单（禁止某些速度、姿态、靠近人区域）
训练与生产隔离机制（夜间学习、离线工位、影子模式）

数据策略：少量高质量示范 + 可复用的交互日志

研究也指出，技能边界与片段标注难规模化。工厂可以更聪明：

把“每次调试、每次报警、每次复位”都当作训练资产沉淀成日志
用多模态模型做自动切片（例如从视频+力曲线中切出“对齐阶段/插入阶段/退让阶段”）
让示范数据更像“工艺教案”：覆盖常见偏差，而不是只录一条理想轨迹

停止准则：性能到峰值后会回落，必须可控

研究观察到自我提升超过某个峰值后成功率会下降。工业上这不是小问题，因为你不能让系统“越学越差”。建议做法：

设定明确的 early stopping：成功率、碰撞率、节拍波动超过阈值立刻回滚
做策略版本管理与 A/B 验证：新策略先在影子工位跑满 N 个周期
引入正则化与多目标约束：把“快”和“稳”同时写进优化目标

智能工厂的下一步：把机器人训练做成一条“数据产线”

在“人工智能在机器人产业”这条主线上，我越来越确信一个判断：未来拉开差距的不是你买了哪款机械臂，而是你是否把学习闭环做成了可复制的工程流水线。

DeepMind 的两阶段自我提升给了一个很清晰的范式：

用监督微调快速获得可用的基线能力
用数据驱动奖励把强化学习的工程成本降下来
用自我练习获得模仿学不到的行为泛化

对制造业团队而言，真正该投入的不是“再示教 1000 条轨迹”，而是：数字孪生训练场、可追溯的数据体系、可审计的安全与回滚机制，以及能持续运转的 MLOps/RobOps 流程。

如果你正在规划 2026 年的智能工厂机器人升级，我建议把一个问题写进项目立项书里：当产线变化来得比你示教更快时，你的机器人能不能像人一样，通过练习把新技能学出来？