人工智能在机器人产业•2025年12月20日•By 3L3C

参数合并让VLA物流机器人小样本学新技能更稳：既能适配新流程，又不忘旧能力。给出仓储分拣与配送落地流程与上线护栏。

物流与供应链仓库机器人机器人学习小样本学习模型合并自动化运维

参数合并让物流机器人更“稳”：小样本上新技能不翻车

双12刚过，很多仓库的节奏还没完全降下来：白天补货、夜里拣选、临时加的新品类、不断变化的包装规则。对机器人来说，这种“今天教一个新动作、明天换一套流程”的环境，往往比搬一百次同样的箱子难多了。

多数公司在仓储自动化里踩过一个坑：机器人在A场景跑得很好，一做小规模“二次训练”去适配B场景，就开始变得不稳定——要么对新任务“死记硬背”，换个箱型、换个货架高度就失败；要么更糟，学会B之后把A忘了，之前跑顺的流程也跟着掉线。

这正是近期一篇机器人研究提出的核心矛盾：通用型视觉-语言-动作（Vision-Language-Action, VLA）策略虽然见多识广，但遇到训练数据没覆盖的新任务时仍会吃力；而用少量演示做微调，又极易过拟合并产生“灾难性遗忘”。论文给出的解法很朴素：把微调后的模型参数，与预训练模型参数做插值合并（parameter merging），得到一个“既记得老本事、又学会新技能”的单一策略。

作为“人工智能在机器人产业”系列的一篇，我更关心它对物流与供应链的启发：让仓库机器人、分拣机器人、园区配送机器人在不断变化的业务里，学新技能不翻车，这比让它们在实验室里跑高分更有价值。

物流机器人最痛的不是不会做，而是“改一次就坏一次”

直接给结论：物流场景的ROI往往死在“持续迭代成本”上，而不是首版上线成本。

仓库/园区的变化来自三类源头：

商品与包装变化：箱规、托盘、胶带、标签位置、可抓取面都在变。
流程变化：波次策略调整、优先级插单、夜班临时规则、跨境合规标签更新。
环境变化：货架重新布局、临时堆放、地面反光、照明变化、通道拥堵。

VLA策略的想法是“看得懂（视觉）+听得懂（语言指令）+做得出（动作控制）”，天然适合做多任务通用机器人。但现实里，一旦你用几十条演示去教它一个新动作（比如“把易碎品放入带隔板的箱子并贴上红色标签”），模型很可能：

对演示记得太死：演示里箱子在左边，它就只会去左边找；换到右边就卡住。
把旧技能挤掉：之前会做的“标准拣选+扫码”突然出错，仿佛换了一个人。

论文把这种现象归结为微调过拟合与遗忘，并提出用参数合并让更新更稳。

为什么“少量演示微调”在仓储里特别危险

仓储任务通常有“长尾变化”：

80%的订单是常规箱，20%是异形/超重/多件套；
80%的货位光照正常，20%在阴影、反光或临时堆放区。

少量演示很容易只覆盖“最顺的那条路”，导致模型学到的是局部窍门，而不是可泛化的规则。对业务侧来说，表现就是：上线当天很好，第二周换了SKU结构就掉点。

论文方法的要点：把“新技能”当成可控增量，而不是彻底改写

直接说核心：参数合并就是在预训练模型参数（通用能力）与微调模型参数（新技能）之间做权重插值。

可以把它理解为“保留底盘，换上一个更适合新路况的轮胎”，而不是把整车拆了重造。

预训练模型：在大规模、多样数据上学到的通用感知与控制能力（类似仓库里“通用作业员”的基础功）。
微调模型：在少量新任务演示上学到的特定技能（类似“教会他打包易碎品”）。
合并模型：在两者之间折中，既不过度贴合演示，也不轻易忘掉旧任务。

论文的实验结论（用通俗话翻译）是：合并后的单一模型在新任务的分布外变化（Out-of-Distribution, OOD）上，往往比纯微调更稳；同时还能保持预训练的广泛能力。更现实的一点是：他们还观察到预训练数据越多，合并效果越好——这很符合工业界经验：底座越厚，增量更新越不容易跑偏。

参数合并为什么比“继续调参”更像工程解法

我喜欢它的原因是：它把“模型更新”从玄学调参，变成了一个可控的工程旋钮。

你可以把插值系数看作“新技能强度”的阀门：

系数偏向微调模型：新技能更强，但风险是遗忘与过拟合。
系数偏向预训练模型：更稳、更泛化，但新技能可能不够到位。

对物流企业来说，这意味着：上线前可以用一组固定的回归测试任务集，扫描不同系数，选一个业务风险最低的点。这比“再微调一轮看看”要可控得多。

可被引用的一句话：参数合并把“学新技能”从一次性改写，变成了可回退、可度量的增量更新。

把它落到物流：VLA + 参数合并能解决哪些具体场景？

先给答案：最适合的是“任务频繁变、演示数据少、又不能牺牲稳定性”的环节。

1) 仓库拣选与上架：SKU更新季的稳定迭代

每到年末上新、清仓、礼盒季，SKU和包装形态变得特别快。你很难为每个新包装收集大量数据。

做法可以是：

维持一个“通用拣选VLA底座”（覆盖常见货架、箱型、抓取姿态）。
对某个新包装流程收集少量演示（例如20-100条，具体取决于动作复杂度）。
微调得到“新流程模型”，再与底座做参数合并。

业务收益不在“某一次成功率提升0.5%”，而在：每次流程变化的上线周期缩短、回归风险下降、反复返工减少。

2) 分拣与打包：语言指令驱动的柔性工位

VLA的一个优势是语言接口更自然：

“把带电池标识的货放到危险品箱”
“订单A优先，贴红色加急标”

但语言规则也常变，尤其跨境合规与促销期标签。用参数合并做增量更新，能更稳地把新规则融进去，而不影响已有工位动作（如抓取、放置、扫码）。

3) 园区配送与末端交付：持续学习但不“越学越飘”

配送机器人面对的变化更多：门禁、坡道、地面材质、临时路障。持续学习是必需的，但“学新路线忘旧路线”会直接带来投诉。

参数合并在“终身学习”（lifelong learning）框架下更顺手：每次学到一个新技能/新路线，都用合并方式把更新收敛成一个稳定的单模型，减少能力漂移。

物流团队怎么用：一套可执行的“合并式上线流程”

答案很直接：把参数合并嵌入你的MLOps/RobotOps发布链路，像做灰度发布一样做模型灰度。

1) 建立两套任务集：新任务验证 + 旧任务回归

不要只看新任务成功率。建议至少包含：

新任务验证集：新箱型、新工位、新规则的变化组合（刻意做分布外样本）。
旧任务回归集：历史最赚钱、最关键的Top流程（例如标准拣选、扫码、放置）。

指标也要更“业务化”：

成功率（任务完成）
单次循环时间（节拍）
异常率（掉落、二次抓取、重试次数）
人工接管率（远程/现场介入）

2) 用“插值系数扫描”替代盲目多轮微调

做法：固定微调模型不动，选择5-10个系数点（例如0.1到0.9），跑同一套验证/回归任务集，选最优折中点。

这一步往往能把工程沟通变简单：

运营要稳定？系数往底座偏。
新任务必须强？系数往微调偏，但要加回归护栏。

3) 上线策略：先灰度再全量，允许快速回退

合并模型本质上更可控，但上线依然建议：

单工位/单线路灰度
监控关键指标（接管率、节拍、异常）
触发阈值即回退到更“保守”的系数版本或纯底座

我见过最有效的组织动作：把“模型回退”做成一键操作，和WMS/WCS的发布回滚同等级。

常见疑问（物流负责人最爱问的三件事）

Q1：参数合并是不是意味着不用收集更多数据了？

不是。它解决的是小样本更新更稳，不是“零数据学习”。如果新任务本身变化巨大（例如从抓箱变成拧瓶盖），演示数据依然要补。

Q2：合并会不会让新任务学不进去？

会有这个风险，尤其系数太偏向预训练底座时。工程上用“系数扫描 + 业务阈值”就能解决：新任务达标是硬门槛，回归不退是底线。

Q3：这对跨境物流有什么用？

跨境的变化通常来自合规标签、包装加固、异常处理流程。这些更像“规则+动作组合”，特别适合VLA用语言条件来表达，再通过合并把新流程稳定加到模型里，减少频繁改代码与硬规则堆叠。

下一步：把“会做”升级为“持续会做”

物流自动化的分水岭不是有没有机器人，而是机器人能不能在旺季、SKU更替、流程调整中保持稳定。参数合并这类方法的价值在于：它让“教会机器人一个新技能”变得更像软件工程——可测试、可灰度、可回退。

如果你正在推进仓库自动化、分拣打包机器人或园区配送，建议从一个小切口开始：挑一个高频变化的工位，用少量演示做微调，然后用参数合并把更新控制住，再用回归任务集证明“没把老流程搞坏”。

接下来更值得思考的是：当你的预训练底座越来越强、数据越来越多、技能库越来越大，你的供应链会不会从“追着变化跑”变成“变化来了也不慌”？