人工智能在机器人产业•2025年12月20日•By 3L3C

单视角形状补全用扩散模型把残缺点云补成可规划的完整几何，在杂乱抓取中带来约23%成功率提升，直指仓库拣选与分拣效率。

仓库机器人机器人抓取3D视觉扩散模型智能仓储WMS/WCS

单视角形状补全：让仓库拣选机器人在“乱堆”里抓得更准

拣选机器人最“掉链子”的时刻，往往不是力不够，也不是速度慢，而是看不清：货筐里一堆商品互相遮挡，摄像头只能看到一面；深度相机读到的点云残缺，抓取算法只能在“半截几何信息”上做决策。结果就是抓空、滑脱、误抓，吞掉整条产线的节拍。

2025-12-19 发表的一项研究提出了一个很实用的方向：用扩散模型（diffusion model）对单视角深度观测做类别级 3D 形状补全，把“看见的一部分”补成“可用于规划的完整物体几何”。作者在杂乱场景的初步实验里报告：相比“不做补全”的朴素基线，抓取成功率提升约23%；相比某个近期形状补全方法也高约19%。放到物流与供应链语境里，这不是学术炫技，而是仓库自动化迈向稳定落地的一块关键拼图。

这篇文章属于「人工智能在机器人产业」系列，我想把论文里的技术点翻译成仓储现场能用的语言：它解决了什么痛点、为什么对 WMS/WCS、库存准确率、分拣效率有直接影响，以及企业该怎么评估是否值得上。

为什么“乱堆抓取”会卡住仓库自动化的上限

答案很明确：单视角感知导致几何信息不完整，而抓取规划本质依赖几何完整性。

在典型仓库拣选站，常见硬件是顶部或侧方的 RGB-D 相机。问题在于：

单视角天然只看到一面：箱体背面、底部、被叠压的区域都缺失。
杂乱遮挡让缺失更严重：SKU 彼此遮挡，点云出现大块空洞。
抓取评分网络“吃到”的是残缺输入：吸盘需要估计密封面；夹爪需要评估法向、接触点、碰撞风险。缺一块就会把安全边界估错。

很多团队会先用“多视角扫描”绕过去：让机械臂换姿态补拍、转台旋转、或在工位上增加第二/第三个相机。它确实有效，但代价也很直接：

额外拍摄带来**周期时间（cycle time）**上升
工位更复杂，标定与维护成本提高
多相机遮挡依然存在，且数据融合更难

所以行业一直需要一种更工程化的路线：不增加硬件复杂度，在单视角条件下把“可用几何”做厚。

单视角形状补全：让机器人“从部分看到整体”

核心观点：先补全物体的 3D 形状，再做抓取推理，抓取网络会更稳。

论文的方法思路是：从单视角深度图（或部分点云）出发，用扩散模型生成与该物体类别一致、且与观测一致的完整 3D 形状，然后把补全结果喂给下游抓取网络（grasp inference network）。

形状补全到底补的是什么？

**补的是“抓取相关的几何上下文”。**在仓库里，机器人不需要把物体复原到 CAD 级别的精度；它更需要：

哪些面可能是可吸附/可夹持的平面或边缘
物体大致厚度、重心趋势（影响抓取后姿态）
与周围物体的潜在碰撞体积（影响路径规划）

换句话说，形状补全不是为了“看起来像”，而是为了“抓起来稳”。

为什么扩散模型适合做这件事？

因为在严重缺失的情况下，模型需要从数据分布里“补合理的缺失部分”，扩散模型在生成与不确定性表达上更强。

在杂乱遮挡里，同一个可见轮廓可能对应多种真实形状。传统回归式网络容易输出“平均形状”，导致边缘变钝、厚度变怪，反而误导抓取。扩散模型通过逐步去噪生成，可以更好地在多解空间里找到与观测一致的可行解。

论文强调的是类别级形状补全：面向“常见家庭物品”这种形态多样的类目。映射到物流更接近真实：仓库 SKU 形态差异巨大，不可能每个都建模。

一句话概括：单视角形状补全让抓取从“对残缺点云做猜测”变成“对补全几何做规划”。

从论文结果到仓库 KPI：23% 成功率提升意味着什么

抓取成功率提升不是“一个指标变好看”，它会直接穿透到吞吐、人工回补、库存准确率。

论文在杂乱场景的初步评估中给出两组对比：

相比不做形状补全：成功率 +23%
相比某近期形状补全方法：成功率 +19%

把它翻译成仓库语言，可以这样看：

1）吞吐（UPH）与节拍稳定性

抓取失败通常不只是“重试一次”。它会触发：重新检测、重新规划、重新定位，甚至需要人工介入。成功率提升带来的收益往往是非线性的：

失败率下降 → 重试次数下降 → 节拍更稳定
节拍稳定 → WCS 排程更容易做“确定性承诺”

2）分拣准确率与库存数据质量

误抓/带起邻近商品会造成：

多抓、错投（直接影响订单正确率）
扫码/称重校验压力增大
盘点差异变大，反向影响需求预测与补货决策

更“聪明的看见”会让后端系统（WMS、补货、预测）获得更干净的数据闭环，这也是“人工智能在物流与供应链”最该抓住的价值：感知 → 操作 → 数据 → 决策。

3）对路径规划与工位设计的连锁影响

形状补全提供更可靠的占据体积估计，路径规划的碰撞检查会更准。实际效果是：

机械臂不必留过大的安全裕度（动作更干脆）
工位可以更紧凑（同面积更高产能）

我见过不少项目抓取不稳时，会用“加大间距、降低堆叠高度、限制每次上料数量”来换稳定。这些都是在牺牲密度和效率。形状补全的意义之一，就是把这些“妥协”拿回来。

落地时最该关注的 4 个工程问题

技术能跑通不等于能上线，评估要看数据、算力、时延、异常处理。

1）数据：你的 SKU 分布是否支持“类别级补全”？

类别级补全假设同一类物体有可学习的形状先验。仓库里最容易先做的是：

标准包装箱、快递袋、规则盒装商品
常见瓶罐、圆柱类容器
形态相对稳定的自有品牌包装

而对“软包装、可变形物、透明反光物”要谨慎：深度相机本来就容易测不准，补全的输入质量差会放大风险。

2）时延：形状补全必须跟得上节拍

扩散模型如果推理步数多，时延可能成为瓶颈。比较务实的做法是把形状补全放在两类场景：

失败高发的乱堆工位（价值密度最高）
需要高确定性的关键工序（比如高价值品、易损品）

并用策略控制：在“可见信息足够”时直接走快速抓取；在“遮挡严重”时才启用补全。

3）安全与异常：补全错了怎么办？

形状补全是“生成”，就会有猜错的可能。上线要有“刹车系统”：

把补全结果当作候选几何，而不是唯一真相
用物理约束过滤：碰撞检查、稳定抓取评分阈值
失败后回退：触发多视角补拍或换抓取策略

4）系统集成：别把它当作孤立模型

真正的仓库系统里，形状补全的收益往往来自协同：

与 WMS 的 SKU 尺寸/重量/包装信息融合，提供先验约束
与视觉识别结合，按类目选择不同补全模型或参数
与路径规划共享占据体积，减少冗余计算

一句话：把形状补全做成 WCS 的一个“感知服务”，而不是实验室 demo。

一套可执行的 PoC 路线：两周内验证有没有价值

目标是快速回答：成功率能不能提升、节拍会不会变慢、异常是否可控。

我建议按下面步骤做小规模验证：

选场景：挑一个失败率高、遮挡重的工位（比如料箱拣选、退货分拣混装筐）。
建基线：记录 3-5 天数据，统计抓取成功率、平均重试次数、单件周期时间。
接入补全：只在“点云缺失超过阈值”的样本上启用补全，避免全量增加时延。
对比指标（至少三项）：
- 抓取成功率（首抓成功率、最终成功率）
- 重试次数分布（P50/P90）
- 节拍（平均与波动）
做失败分析：把失败归因到“深度质量差、类目偏离、抓取执行误差、碰撞约束过松/过紧”。

如果 PoC 后看到类似论文那样的成功率提升（哪怕只有一半，比如 10%-15%），通常就已经能证明商业价值：减少人工回补、提高 UPH、降低异常工单。

写在系列末尾的一点判断：这是仓库机器人“可规模化”的关键

仓库自动化这几年最大的矛盾是：单点 demo 很惊艳，但规模化后被长尾异常拖垮。乱堆抓取就是典型长尾：货品多样、遮挡随机、场景不可控。

单视角形状补全的价值在于，它不是靠“更理想的现场”来换成功率，而是让机器人在更真实、更混乱的环境里也能做出稳定判断。对供应链而言，稳定意味着可预测、可排程、可承诺。

下一步值得关注的是：形状补全能否与库存信息、订单波峰波谷下的工位策略联动，形成“感知—执行—数据”的闭环优化。你更希望先把它用在料箱拣选，还是退货分拣这种更混乱的场景里？