单视角形状补全用扩散模型把残缺点云补成可规划的完整几何,在杂乱抓取中带来约23%成功率提升,直指仓库拣选与分拣效率。
单视角形状补全:让仓库拣选机器人在“乱堆”里抓得更准
拣选机器人最“掉链子”的时刻,往往不是力不够,也不是速度慢,而是看不清:货筐里一堆商品互相遮挡,摄像头只能看到一面;深度相机读到的点云残缺,抓取算法只能在“半截几何信息”上做决策。结果就是抓空、滑脱、误抓,吞掉整条产线的节拍。
2025-12-19 发表的一项研究提出了一个很实用的方向:用扩散模型(diffusion model)对单视角深度观测做类别级 3D 形状补全,把“看见的一部分”补成“可用于规划的完整物体几何”。作者在杂乱场景的初步实验里报告:相比“不做补全”的朴素基线,抓取成功率提升约23%;相比某个近期形状补全方法也高约19%。放到物流与供应链语境里,这不是学术炫技,而是仓库自动化迈向稳定落地的一块关键拼图。
这篇文章属于「人工智能在机器人产业」系列,我想把论文里的技术点翻译成仓储现场能用的语言:它解决了什么痛点、为什么对 WMS/WCS、库存准确率、分拣效率有直接影响,以及企业该怎么评估是否值得上。
为什么“乱堆抓取”会卡住仓库自动化的上限
答案很明确:单视角感知导致几何信息不完整,而抓取规划本质依赖几何完整性。
在典型仓库拣选站,常见硬件是顶部或侧方的 RGB-D 相机。问题在于:
- 单视角天然只看到一面:箱体背面、底部、被叠压的区域都缺失。
- 杂乱遮挡让缺失更严重:SKU 彼此遮挡,点云出现大块空洞。
- 抓取评分网络“吃到”的是残缺输入:吸盘需要估计密封面;夹爪需要评估法向、接触点、碰撞风险。缺一块就会把安全边界估错。
很多团队会先用“多视角扫描”绕过去:让机械臂换姿态补拍、转台旋转、或在工位上增加第二/第三个相机。它确实有效,但代价也很直接:
- 额外拍摄带来**周期时间(cycle time)**上升
- 工位更复杂,标定与维护成本提高
- 多相机遮挡依然存在,且数据融合更难
所以行业一直需要一种更工程化的路线:不增加硬件复杂度,在单视角条件下把“可用几何”做厚。
单视角形状补全:让机器人“从部分看到整体”
核心观点:先补全物体的 3D 形状,再做抓取推理,抓取网络会更稳。
论文的方法思路是:从单视角深度图(或部分点云)出发,用扩散模型生成与该物体类别一致、且与观测一致的完整 3D 形状,然后把补全结果喂给下游抓取网络(grasp inference network)。
形状补全到底补的是什么?
**补的是“抓取相关的几何上下文”。**在仓库里,机器人不需要把物体复原到 CAD 级别的精度;它更需要:
- 哪些面可能是可吸附/可夹持的平面或边缘
- 物体大致厚度、重心趋势(影响抓取后姿态)
- 与周围物体的潜在碰撞体积(影响路径规划)
换句话说,形状补全不是为了“看起来像”,而是为了“抓起来稳”。
为什么扩散模型适合做这件事?
因为在严重缺失的情况下,模型需要从数据分布里“补合理的缺失部分”,扩散模型在生成与不确定性表达上更强。
在杂乱遮挡里,同一个可见轮廓可能对应多种真实形状。传统回归式网络容易输出“平均形状”,导致边缘变钝、厚度变怪,反而误导抓取。扩散模型通过逐步去噪生成,可以更好地在多解空间里找到与观测一致的可行解。
论文强调的是类别级形状补全:面向“常见家庭物品”这种形态多样的类目。映射到物流更接近真实:仓库 SKU 形态差异巨大,不可能每个都建模。
一句话概括:单视角形状补全让抓取从“对残缺点云做猜测”变成“对补全几何做规划”。
从论文结果到仓库 KPI:23% 成功率提升意味着什么
抓取成功率提升不是“一个指标变好看”,它会直接穿透到吞吐、人工回补、库存准确率。
论文在杂乱场景的初步评估中给出两组对比:
- 相比不做形状补全:成功率 +23%
- 相比某近期形状补全方法:成功率 +19%
把它翻译成仓库语言,可以这样看:
1)吞吐(UPH)与节拍稳定性
抓取失败通常不只是“重试一次”。它会触发:重新检测、重新规划、重新定位,甚至需要人工介入。成功率提升带来的收益往往是非线性的:
- 失败率下降 → 重试次数下降 → 节拍更稳定
- 节拍稳定 → WCS 排程更容易做“确定性承诺”
2)分拣准确率与库存数据质量
误抓/带起邻近商品会造成:
- 多抓、错投(直接影响订单正确率)
- 扫码/称重校验压力增大
- 盘点差异变大,反向影响需求预测与补货决策
更“聪明的看见”会让后端系统(WMS、补货、预测)获得更干净的数据闭环,这也是“人工智能在物流与供应链”最该抓住的价值:感知 → 操作 → 数据 → 决策。
3)对路径规划与工位设计的连锁影响
形状补全提供更可靠的占据体积估计,路径规划的碰撞检查会更准。实际效果是:
- 机械臂不必留过大的安全裕度(动作更干脆)
- 工位可以更紧凑(同面积更高产能)
我见过不少项目抓取不稳时,会用“加大间距、降低堆叠高度、限制每次上料数量”来换稳定。这些都是在牺牲密度和效率。形状补全的意义之一,就是把这些“妥协”拿回来。
落地时最该关注的 4 个工程问题
技术能跑通不等于能上线,评估要看数据、算力、时延、异常处理。
1)数据:你的 SKU 分布是否支持“类别级补全”?
类别级补全假设同一类物体有可学习的形状先验。仓库里最容易先做的是:
- 标准包装箱、快递袋、规则盒装商品
- 常见瓶罐、圆柱类容器
- 形态相对稳定的自有品牌包装
而对“软包装、可变形物、透明反光物”要谨慎:深度相机本来就容易测不准,补全的输入质量差会放大风险。
2)时延:形状补全必须跟得上节拍
扩散模型如果推理步数多,时延可能成为瓶颈。比较务实的做法是把形状补全放在两类场景:
- 失败高发的乱堆工位(价值密度最高)
- 需要高确定性的关键工序(比如高价值品、易损品)
并用策略控制:在“可见信息足够”时直接走快速抓取;在“遮挡严重”时才启用补全。
3)安全与异常:补全错了怎么办?
形状补全是“生成”,就会有猜错的可能。上线要有“刹车系统”:
- 把补全结果当作候选几何,而不是唯一真相
- 用物理约束过滤:碰撞检查、稳定抓取评分阈值
- 失败后回退:触发多视角补拍或换抓取策略
4)系统集成:别把它当作孤立模型
真正的仓库系统里,形状补全的收益往往来自协同:
- 与 WMS 的 SKU 尺寸/重量/包装信息融合,提供先验约束
- 与视觉识别结合,按类目选择不同补全模型或参数
- 与路径规划共享占据体积,减少冗余计算
一句话:把形状补全做成 WCS 的一个“感知服务”,而不是实验室 demo。
一套可执行的 PoC 路线:两周内验证有没有价值
目标是快速回答:成功率能不能提升、节拍会不会变慢、异常是否可控。
我建议按下面步骤做小规模验证:
- 选场景:挑一个失败率高、遮挡重的工位(比如料箱拣选、退货分拣混装筐)。
- 建基线:记录 3-5 天数据,统计抓取成功率、平均重试次数、单件周期时间。
- 接入补全:只在“点云缺失超过阈值”的样本上启用补全,避免全量增加时延。
- 对比指标(至少三项):
- 抓取成功率(首抓成功率、最终成功率)
- 重试次数分布(P50/P90)
- 节拍(平均与波动)
- 做失败分析:把失败归因到“深度质量差、类目偏离、抓取执行误差、碰撞约束过松/过紧”。
如果 PoC 后看到类似论文那样的成功率提升(哪怕只有一半,比如 10%-15%),通常就已经能证明商业价值:减少人工回补、提高 UPH、降低异常工单。
写在系列末尾的一点判断:这是仓库机器人“可规模化”的关键
仓库自动化这几年最大的矛盾是:单点 demo 很惊艳,但规模化后被长尾异常拖垮。乱堆抓取就是典型长尾:货品多样、遮挡随机、场景不可控。
单视角形状补全的价值在于,它不是靠“更理想的现场”来换成功率,而是让机器人在更真实、更混乱的环境里也能做出稳定判断。对供应链而言,稳定意味着可预测、可排程、可承诺。
下一步值得关注的是:形状补全能否与库存信息、订单波峰波谷下的工位策略联动,形成“感知—执行—数据”的闭环优化。你更希望先把它用在料箱拣选,还是退货分拣这种更混乱的场景里?