人工智能在机器人产业•2025年12月19日•By 3L3C

DeepMind 两阶段训练让机器人在少示教下自我提升，缓解奖励工程与数据成本。本文结合智能工厂与数字孪生，给出可落地路线与风险清单。

具身智能工业机器人强化学习数字孪生智能工厂机器人泛化

Featured image for 工业机器人也能“自我进化”：DeepMind 两阶段训练对智能工厂的启示

工业机器人也能“自我进化”：DeepMind 两阶段训练对智能工厂的启示

制造业里最费钱、也最容易被低估的一件事，是“让机器人学会一个新动作”。别小看一个“插入”“对位”“抓取后再放置”的工序变化：你要采集数据、标注轨迹、反复调参，还要在产线窗口期里做测试。一旦换了物料、光照变了、夹具磨损了，机器人就可能表现失常。

DeepMind 最近提出的两阶段后训练（先监督微调，再自我提升）给了工业界一个更务实的方向：机器人不再只做“模仿者”，而是能够在较少人工监督下，自己练习、自己纠错、自己把成功率拉起来，甚至学到训练数据里从没出现过的新技能。

这篇文章属于「人工智能在机器人产业」系列。我会把研究思路翻译成制造业能落地的语言：它解决了什么瓶颈、为什么和智能工厂/数字孪生天然契合、你该如何把它变成一条可实施的技术路线。

传统“行为克隆”为什么卡住了智能工厂的自动化升级？

答案很直接：行为克隆吃数据、怕变化、难泛化。

制造业常见的机器人学习路径，本质是“照猫画虎”：用人类遥操作或示教的轨迹做监督学习（行为克隆），让策略在相似条件下复现动作。这条路不是没用，而是有三个硬伤：

1）标注与采集成本高，且越复杂越贵

真实产线的数据采集不是“多录几段视频”那么简单。你会遇到：

不同班次工人操作风格差异
安全与停线窗口限制
夹具/工装版本迭代导致数据失效
合规与质量要求带来的数据审计负担

结果往往是：一个看似小的任务改动，背后是成倍的示教与标注投入。

2）遇到训练外场景就“不会了”

行为克隆在分布外泛化上天然吃亏。比如来料公差变化、物体反光、相机角度微偏、末端执行器磨损，这些在真实工厂里每天都在发生。

3）强化学习虽强，但“奖励工程”把人拖垮

很多工程团队试过用强化学习补强泛化，但很快被“奖励函数”绊住：奖励太松，学不会；奖励太紧，钻空子；真实场景奖励测量还需要额外传感器、视觉检测、工程集成。奖励工程变成了一条无底洞。

DeepMind 的核心贡献之一，就是绕开了“人工设计真值奖励”这一步。

DeepMind 的两阶段后训练：把“奖励”从工程问题变成数据问题

答案：先用监督学习把基础能力和“成功进度感”学出来，再用自我提升让机器人自己练到更稳、更准。

研究提出一个面向具身基础模型（Vision-Language + 控制）的两阶段后训练框架：

阶段一：监督微调（SFT）
- 目标A：行为克隆（把示教动作学会）
- 目标B：剩余步骤预测（steps-to-go，预测离成功还差几步）
阶段二：自我提升（Self-Improvement）
- 在线强化学习微调策略
- 关键在于：奖励函数和成功检测器来自“剩余步骤预测”，并且冻结阶段一检查点用于打分

为什么“剩余步骤预测”很适合工厂？

它把奖励变成“进度条”。

在工业任务里，你常常难以定义一个实时、连续、可靠的奖励函数，但你能相对容易地判断“离成功更近了还是更远了”。剩余步骤预测给了一个平滑的、可学习的“进度”信号：

夹爪接近目标、姿态更对、接触更稳定 → 步数变少
偏离、滑脱、碰撞导致姿态变差 → 步数变多

这让奖励不必依赖昂贵的人工规则，也不必为每个工位单独写一套“成功判定脚本”。对智能工厂来说，这意味着更低的工程维护成本。

工业机器人学习最怕的不是“难”，而是“每换一个任务就要重写一套奖励”。数据驱动型奖励把这件事变成可复用的能力。

从实验到产线：哪些结果对制造业最有含金量？

答案：样本效率、可复现性、以及“学新技能”的行为泛化。

研究在两类平台上做验证：桌面操作的 LanguageTable，以及双臂操作的 Aloha。它们不像产线那样复杂，但覆盖了制造业最常见的能力原子：抓取、推移、对位、插入、双臂协同。

1）样本效率：少量自我提升时间，胜过海量示教数据

文中给出一个特别“工程友好”的对比：

在 LanguageTable 中，仅增加约 10% 的自我提升训练时间，成功率可从 45% 提升到 75%
但如果选择“堆数据”，把模仿数据量增加 8 倍，成功率仅从 45% 到 60%

这对智能工厂的意义很明确：与其无休止地采示教，不如让机器人在可控环境里自己练。

2）可靠性：多随机种子验证，且支持真实环境长期运行

研究在仿真中用多个随机种子检验自我提升流程的稳定性，并把方法搬到真实桌面环境中运行约 20 小时。更关键的是：

人类操作员只做“兜底重置”（如物体掉落、长时间未重置）
指令采样、奖励标记、成功检测自动化

换成工厂语言，就是：不需要一群算法工程师守在工位旁边“盯训练”。

3）强泛化：不仅能“换说法”，还能“学新动作”

很多机器人基础模型展示的泛化，更多是语义层面的（同一动作不同指令）。这项研究更值得注意的是行为泛化：在新任务（如 BananaTable）上，自我提升能让机器人练出训练数据没见过的新技能细节。

把它映射到制造业，就是：

物料形状变化（细长件、软包件、反光金属件）
工序要求变化（从“推到位”变“推后微调对齐”）

机器人不必等你重新采一整套示教，而是能在策略空间里“自己找到可行解”。

智能工厂怎么用：把两阶段训练嵌进“数字孪生 + 机器人集群”

答案：阶段一在“可控数据”上打底，阶段二在“仿真/产线闭环”里自我练习，并用数字孪生承接扩展。

我建议用一条更贴近工厂组织方式的落地路线：

1）阶段一：用“最小可用示教集”建立可复用底座

不要追求一开始就覆盖所有异常。阶段一更像“上岗前培训”：

覆盖关键工序路径（抓取、转运、对位、插入/压装等）
包含多相机视角、多光照、多批次物料的少量多样性
同时训练行为克隆 + 剩余步骤预测

这里的目标不是“满分策略”，而是训练出一个能评估进度、具备基本鲁棒性的底座。

2）阶段二：让机器人在数字孪生里“刷熟练度”，再小步回到真实产线

自我提升阶段最适合与数字孪生结合：

在仿真里进行大规模在线练习（更安全、更省产线时间）
把自我提升后的策略回灌到真实工位做小批量验证
通过真实日志再反哺仿真参数（Real2Sim/Sim2Real 双向校准）

你会得到一种更可控的迭代节奏：仿真里练强度，现实里做验收。

3）与预测性维护的自然耦合：把“性能掉头”当成健康指标

研究观察到：自我提升超过峰值后成功率会下降，需要更好的停止准则或正则化。

在智能工厂里，这反而是个可用的信号：

当策略在某工位自我提升反复“越练越差”，很可能是
- 夹具磨损
- 相机污染/偏移
- 来料批次变化
- 执行器回差变大

把“学习曲线异常”接入设备健康管理系统，你会得到一种新的预测性维护触发器：不是等质量报废率上升才处理，而是在策略开始难以稳定提升时就预警。

工业落地要避开的坑：三条红线和一份检查清单

答案：不要把它当成“无监督万能学习”，要把安全、数据闭环、停止策略先做扎实。

红线1：没有安全护栏的在线学习，别直接上产线

自我提升本质是在线探索。工业现场必须有约束：

速度/力矩/工作空间限制
碰撞检测与急停策略
人机协作区域的安全认证与隔离

很多团队失败不是算法不行，而是探索动作触发了不可接受的风险。

红线2：奖励与成功检测再“数据驱动”，也要可审计

制造业要对质量负责。建议为奖励/成功检测增加审计层：

抽样人工复核成功判定
对关键缺陷（压装不到位、插销半插入）建立单独的视觉检测
将“策略版本—工艺版本—物料版本”做配置管理

红线3：没有停止准则，自我提升会“过拟合塑形奖励”

研究里已经提示性能会在峰值后下降。工程上可用三类停止信号：

成功率移动平均连续 N 个窗口不再提升
失败类型分布开始恶化（例如碰撞率上升）
关键质量指标（尺寸/扭矩/视觉缺陷）出现回退

上线前检查清单（建议收藏）

阶段一数据是否覆盖关键工况的最小多样性？
剩余步骤预测的“进度信号”是否与工艺目标一致？
数字孪生的主要误差源是否可量化（摩擦、相机标定、夹具公差）？
自我提升是否有安全动作约束与回滚机制？
是否定义了停止准则与策略版本管理？

你现在就能做的下一步：从一个“高频变化工位”开始试

DeepMind 的方法之所以对智能工厂有价值，不是因为它展示了更高的实验成功率，而是它提供了一个现实可行的方向：把机器人训练从“堆示教数据”转向“少示教 + 自我练习 + 可复用奖励”。

如果你在规划 2026 年的自动化升级，我更建议从“变化最频繁、示教最痛苦”的工位开始试点，比如：插入对位、柔性抓取、混料分拣、来料批次波动大的装配段。先做小闭环：阶段一打底，阶段二在仿真里练，再把提升后的策略带回真实工位验收。

制造业真正需要的不是一台“会炫技”的机器人，而是一套能持续迭代、能跨任务复用、能在变化中保持稳定的学习系统。下一代智能工厂里，机器人“自由成长”的边界，取决于你是否愿意把训练流程产品化、工程化。

你们的产线里，哪个工位最符合“示教成本高、变化频繁、但动作结构相对清晰”的特征？从那里开始，最容易把两阶段训练跑出可见的 ROI。