单视角形状补全:让仓库拣选机器人在“乱堆”里抓得更准

人工智能在机器人产业By 3L3C

单视角形状补全用扩散模型把残缺点云补成可规划的完整几何,在杂乱抓取中带来约23%成功率提升,直指仓库拣选与分拣效率。

仓库机器人机器人抓取3D视觉扩散模型智能仓储WMS/WCS
Share:

单视角形状补全:让仓库拣选机器人在“乱堆”里抓得更准

拣选机器人最“掉链子”的时刻,往往不是力不够,也不是速度慢,而是看不清:货筐里一堆商品互相遮挡,摄像头只能看到一面;深度相机读到的点云残缺,抓取算法只能在“半截几何信息”上做决策。结果就是抓空、滑脱、误抓,吞掉整条产线的节拍。

2025-12-19 发表的一项研究提出了一个很实用的方向:用扩散模型(diffusion model)对单视角深度观测做类别级 3D 形状补全,把“看见的一部分”补成“可用于规划的完整物体几何”。作者在杂乱场景的初步实验里报告:相比“不做补全”的朴素基线,抓取成功率提升约23%;相比某个近期形状补全方法也高约19%。放到物流与供应链语境里,这不是学术炫技,而是仓库自动化迈向稳定落地的一块关键拼图。

这篇文章属于「人工智能在机器人产业」系列,我想把论文里的技术点翻译成仓储现场能用的语言:它解决了什么痛点、为什么对 WMS/WCS、库存准确率、分拣效率有直接影响,以及企业该怎么评估是否值得上。

为什么“乱堆抓取”会卡住仓库自动化的上限

答案很明确:单视角感知导致几何信息不完整,而抓取规划本质依赖几何完整性。

在典型仓库拣选站,常见硬件是顶部或侧方的 RGB-D 相机。问题在于:

  1. 单视角天然只看到一面:箱体背面、底部、被叠压的区域都缺失。
  2. 杂乱遮挡让缺失更严重:SKU 彼此遮挡,点云出现大块空洞。
  3. 抓取评分网络“吃到”的是残缺输入:吸盘需要估计密封面;夹爪需要评估法向、接触点、碰撞风险。缺一块就会把安全边界估错。

很多团队会先用“多视角扫描”绕过去:让机械臂换姿态补拍、转台旋转、或在工位上增加第二/第三个相机。它确实有效,但代价也很直接:

  • 额外拍摄带来**周期时间(cycle time)**上升
  • 工位更复杂,标定与维护成本提高
  • 多相机遮挡依然存在,且数据融合更难

所以行业一直需要一种更工程化的路线:不增加硬件复杂度,在单视角条件下把“可用几何”做厚。

单视角形状补全:让机器人“从部分看到整体”

核心观点:先补全物体的 3D 形状,再做抓取推理,抓取网络会更稳。

论文的方法思路是:从单视角深度图(或部分点云)出发,用扩散模型生成与该物体类别一致、且与观测一致的完整 3D 形状,然后把补全结果喂给下游抓取网络(grasp inference network)。

形状补全到底补的是什么?

**补的是“抓取相关的几何上下文”。**在仓库里,机器人不需要把物体复原到 CAD 级别的精度;它更需要:

  • 哪些面可能是可吸附/可夹持的平面或边缘
  • 物体大致厚度、重心趋势(影响抓取后姿态)
  • 与周围物体的潜在碰撞体积(影响路径规划)

换句话说,形状补全不是为了“看起来像”,而是为了“抓起来稳”。

为什么扩散模型适合做这件事?

因为在严重缺失的情况下,模型需要从数据分布里“补合理的缺失部分”,扩散模型在生成与不确定性表达上更强。

在杂乱遮挡里,同一个可见轮廓可能对应多种真实形状。传统回归式网络容易输出“平均形状”,导致边缘变钝、厚度变怪,反而误导抓取。扩散模型通过逐步去噪生成,可以更好地在多解空间里找到与观测一致的可行解。

论文强调的是类别级形状补全:面向“常见家庭物品”这种形态多样的类目。映射到物流更接近真实:仓库 SKU 形态差异巨大,不可能每个都建模。

一句话概括:单视角形状补全让抓取从“对残缺点云做猜测”变成“对补全几何做规划”。

从论文结果到仓库 KPI:23% 成功率提升意味着什么

抓取成功率提升不是“一个指标变好看”,它会直接穿透到吞吐、人工回补、库存准确率。

论文在杂乱场景的初步评估中给出两组对比:

  • 相比不做形状补全:成功率 +23%
  • 相比某近期形状补全方法:成功率 +19%

把它翻译成仓库语言,可以这样看:

1)吞吐(UPH)与节拍稳定性

抓取失败通常不只是“重试一次”。它会触发:重新检测、重新规划、重新定位,甚至需要人工介入。成功率提升带来的收益往往是非线性的

  • 失败率下降 → 重试次数下降 → 节拍更稳定
  • 节拍稳定 → WCS 排程更容易做“确定性承诺”

2)分拣准确率与库存数据质量

误抓/带起邻近商品会造成:

  • 多抓、错投(直接影响订单正确率)
  • 扫码/称重校验压力增大
  • 盘点差异变大,反向影响需求预测与补货决策

更“聪明的看见”会让后端系统(WMS、补货、预测)获得更干净的数据闭环,这也是“人工智能在物流与供应链”最该抓住的价值:感知 → 操作 → 数据 → 决策

3)对路径规划与工位设计的连锁影响

形状补全提供更可靠的占据体积估计,路径规划的碰撞检查会更准。实际效果是:

  • 机械臂不必留过大的安全裕度(动作更干脆)
  • 工位可以更紧凑(同面积更高产能)

我见过不少项目抓取不稳时,会用“加大间距、降低堆叠高度、限制每次上料数量”来换稳定。这些都是在牺牲密度和效率。形状补全的意义之一,就是把这些“妥协”拿回来。

落地时最该关注的 4 个工程问题

技术能跑通不等于能上线,评估要看数据、算力、时延、异常处理。

1)数据:你的 SKU 分布是否支持“类别级补全”?

类别级补全假设同一类物体有可学习的形状先验。仓库里最容易先做的是:

  • 标准包装箱、快递袋、规则盒装商品
  • 常见瓶罐、圆柱类容器
  • 形态相对稳定的自有品牌包装

而对“软包装、可变形物、透明反光物”要谨慎:深度相机本来就容易测不准,补全的输入质量差会放大风险。

2)时延:形状补全必须跟得上节拍

扩散模型如果推理步数多,时延可能成为瓶颈。比较务实的做法是把形状补全放在两类场景:

  • 失败高发的乱堆工位(价值密度最高)
  • 需要高确定性的关键工序(比如高价值品、易损品)

并用策略控制:在“可见信息足够”时直接走快速抓取;在“遮挡严重”时才启用补全。

3)安全与异常:补全错了怎么办?

形状补全是“生成”,就会有猜错的可能。上线要有“刹车系统”:

  • 把补全结果当作候选几何,而不是唯一真相
  • 用物理约束过滤:碰撞检查、稳定抓取评分阈值
  • 失败后回退:触发多视角补拍或换抓取策略

4)系统集成:别把它当作孤立模型

真正的仓库系统里,形状补全的收益往往来自协同:

  • 与 WMS 的 SKU 尺寸/重量/包装信息融合,提供先验约束
  • 与视觉识别结合,按类目选择不同补全模型或参数
  • 与路径规划共享占据体积,减少冗余计算

一句话:把形状补全做成 WCS 的一个“感知服务”,而不是实验室 demo。

一套可执行的 PoC 路线:两周内验证有没有价值

目标是快速回答:成功率能不能提升、节拍会不会变慢、异常是否可控。

我建议按下面步骤做小规模验证:

  1. 选场景:挑一个失败率高、遮挡重的工位(比如料箱拣选、退货分拣混装筐)。
  2. 建基线:记录 3-5 天数据,统计抓取成功率、平均重试次数、单件周期时间。
  3. 接入补全:只在“点云缺失超过阈值”的样本上启用补全,避免全量增加时延。
  4. 对比指标(至少三项):
    • 抓取成功率(首抓成功率、最终成功率)
    • 重试次数分布(P50/P90)
    • 节拍(平均与波动)
  5. 做失败分析:把失败归因到“深度质量差、类目偏离、抓取执行误差、碰撞约束过松/过紧”。

如果 PoC 后看到类似论文那样的成功率提升(哪怕只有一半,比如 10%-15%),通常就已经能证明商业价值:减少人工回补、提高 UPH、降低异常工单。

写在系列末尾的一点判断:这是仓库机器人“可规模化”的关键

仓库自动化这几年最大的矛盾是:单点 demo 很惊艳,但规模化后被长尾异常拖垮。乱堆抓取就是典型长尾:货品多样、遮挡随机、场景不可控。

单视角形状补全的价值在于,它不是靠“更理想的现场”来换成功率,而是让机器人在更真实、更混乱的环境里也能做出稳定判断。对供应链而言,稳定意味着可预测、可排程、可承诺。

下一步值得关注的是:形状补全能否与库存信息、订单波峰波谷下的工位策略联动,形成“感知—执行—数据”的闭环优化。你更希望先把它用在料箱拣选,还是退货分拣这种更混乱的场景里?