人工智能在科研与创新平台•2025年12月20日•By 3L3C

PLSCAN用“多尺度稳定簇”减少密度聚类调参痛苦，把物流与供应链分群直接连接到补货、仓储波次与需求预测的可执行策略。

PLSCAN密度聚类物流与供应链AI仓储自动化库存优化需求预测

多尺度密度聚类PLSCAN：让物流数据分群不再靠猜参数

2025 年的物流数据，越来越像“噪声里找信号”：订单波动、临时加单、促销脉冲、天气与交通扰动、供应商交期飘忽……数据量大不是问题，真正难的是：你不知道该用哪个尺度去看它。用固定参数做聚类，常见结果只有两种：要么把一堆异常点误当成“新业务”，要么把不同场景硬塞进同一类，后续优化全跑偏。

这也是我最近特别关注一篇新工作（2025-12-19 发布）：Persistent Leaves Spatial Clustering for Applications with Noise（PLSCAN）。它基于 HDBSCAN* 的思想，但把“最小簇规模”等关键超参数从“拍脑袋”变成“系统性扫描”，直接找出哪些尺度下的簇是稳定的。对供应链这种多峰、多尺度、噪声高的业务数据来说，这个变化非常实用。

本文属于「人工智能在科研与创新平台」系列：我们不只讲算法概念，而是把科研成果落到可执行的业务路径——尤其是仓储自动化、库存管理、需求预测等典型场景。

多尺度密度聚类到底解决什么痛点？

结论先说：多尺度密度聚类的核心价值，是在不同“观察尺度”下自动识别稳定结构，避免把参数当成玄学。

物流与供应链的数据天然具备多尺度：

时间尺度：分钟级波动（波次拣选）、日级节奏（门店补货）、周级季节性、节假日前后的结构变化
空间尺度：库内库位、仓-站-店网络、跨区干线与末端
业务尺度：SKU、品类、供应商、客户行业、渠道（电商/门店/批发）

传统密度聚类（比如 DBSCAN）需要你先定一个密度阈值（eps），这在“你根本不知道密度长什么样”的探索性分析里很折磨。HDBSCAN* 虽然更强，用“最小簇规模”来避免直接定阈值，但现实里你仍要选 min_cluster_size、k（互可达邻居数）等参数。

问题在于：同一份数据，不同参数会产生完全不同的分群结构，而供应链决策（补货、调拨、排班、波次策略）往往会被“分群结果”直接驱动。

一句话概括：在供应链里，参数不是技术细节，它会改变决策边界。

论文新意：PLSCAN把“选最小簇规模”变成“找稳定叶子簇”

PLSCAN做的事很直白：它会高效识别出所有“最小簇规模”取值中，HDBSCAN 会产生稳定（leaf）簇的那些尺度。*

理解“leaf 簇”可以用一个业务类比：

你把客户订单行为做分群，从粗到细会形成一棵层次树
有些分支在某个区间内结构很稳（不随参数轻易分裂或合并）
这些稳定的末端分支，就是可解释、可落地的细分群体（例如“夜间高频小单客户”“高退货率促销敏感客户”等）

论文摘要里给出两个关键结果：

效果：在多个真实数据集上，PLSCAN 平均 ARI（Adjusted Rand Index）更高；并且对互可达邻居数变化不那么敏感。
性能：在低维数据上，PLSCAN 的运行时间可与 k-Means 竞争；高维时的增长趋势更接近 HDBSCAN*。

对物流团队来说，这几句话翻译过来是：

你不需要花大量时间在参数调试上；
你得到的分群更稳定，后续策略更不容易“跑漂”；
在常见的低维特征（例如 10-50 维的业务指标向量）上，成本是可控的。

“持久性（Persistent）”为什么对供应链很关键？

持久性关注的是：结构在尺度变化中的“存活时间”。

在供应链里，我们经常遇到这种情况：

某些“异常”其实是短期促销脉冲，不应被当作长期分群依据
某些“低频”群体（比如大客户月度集采）样本少，但结构稳定，应该被保留

PLSCAN等价于在一个新度量空间上做持久同调（persistent homology）视角的分析，带来的直观好处是：

把短命的假簇过滤掉（降低误报）
把长命的真结构留下来（增强可复用性）

物流与供应链的三类落地场景：从分群到决策

结论先说：聚类不是为了“看起来很科学”，而是为了把策略从“一刀切”变成“分群施策”。

下面给出 3 个我认为最能立刻产生业务价值的用法。

1）库存与补货：把SKU按“需求形态”分群

答案很明确：用多尺度密度聚类把 SKU 分成需求曲线相似的组，然后为每组设置不同的预测模型与补货策略。

可用特征（示例）：

近 13 周销量的统计特征：均值、方差、峰度、零销量占比
促销敏感度：促销期/非促销期销量比
缺货与替代：缺货期间销量损失估计、替代 SKU 关联强度
交期与波动：供应商交期均值/方差、最小起订量

落地动作：

对“稳定高周转”群：更短预测窗口、更高补货频率
对“间歇性需求”群：使用 Croston 类方法或零膨胀模型，并提高安全库存的结构化规则
对“促销驱动”群：把促销日历作为必选特征，平时不让促销点影响基线

PLSCAN的优势在这里很明显：SKU 的“有效分群尺度”并不一致。你不必强迫所有 SKU 在同一簇规模阈值下成群，稳定结构会告诉你哪些群值得信。

2）仓储自动化：按订单“可拣选形态”分群优化波次

答案是：对订单行项目、热区分布、拣选路径长度等指标做聚类，自动形成波次模板与人机协同策略。

典型特征：

订单行数、SKU 去重数、单件/整箱比例
热销区命中率（Top 20% 库位贡献的拣选占比）
体积重量、特殊包装/温控标签
波次窗口内到单时间分布（是否“扎堆”）

分群后的动作（可执行）：

“小单高频”群：优先走 Goods-to-Person/AGV 补货与快速拣选
“整箱为主”群：单独波次，减少拆零干扰
“长路径稀疏”群：合并波次并优化路径，降低人走动占比

仓内数据噪声很常见（临时插单、补拣、异常取消）。持久多尺度的稳定簇更不容易被这些短期噪声带偏。

3）需求预测前置：用聚类提升特征工程与模型稳定性

直接结论：先聚类再预测，通常比“一个大模型吃所有SKU/门店”更稳。

原因是：

不同群体的季节性与促销响应机制不同
用同一组超参数训练所有对象，容易平均化，最终谁都不准

实操建议：

用 PLSCAN 对“门店-品类”或“SKU-区域”做分群
每个群训练一套轻量模型（例如梯度提升树/时序回归），共享部分特征但允许不同群有不同超参数
监控：当某对象跨群（分群变化持续存在），再触发策略切换

这套流程特别适合年底旺季（12 月）后的“结构回落期”：促销退潮会带来分布漂移。用持久性视角能更快判断：这是短期噪声还是长期结构变化。

上线指南：把PLSCAN放进供应链数据平台的5步

答案先给：把PLSCAN当作“探索性分群 + 稳定性筛选”的组件，而不是一次性离线实验。

定义对象与粒度：SKU、订单、客户、线路、库位，先选一个最能影响决策的对象
做可解释的特征集：宁可少而稳（10-40 维），也别一口气上百维导致距离失真
设置评估口径：
- 无标签：轮廓系数只做参考，更关键是稳定性与业务 KPI
- 有标签：用 ARI/纯度做对照，但别把它当唯一目标
把“稳定簇”当产物：只输出跨尺度稳定的 leaf 簇；短命簇进“观察池”
闭环到决策：每个簇绑定策略（补货参数、波次模板、预测模型组），并做 A/B 或准实验

我见过最浪费的聚类项目，是把簇画得很好看，但没有任何“簇到动作”的映射。

常见问题：团队会卡在哪？

PLSCAN会取代HDBSCAN*吗？

不会。更像是把HDBSCAN*从“单点参数选择”升级为“多尺度稳定性搜索”。你仍能用HDBSCAN*的直觉与可解释框架，但少走弯路。

高维数据怎么办？

论文里也提到：高维下运行时间更像 HDBSCAN*，且距离度量会更困难。我的建议是：

先做可解释降维（PCA/业务聚合特征）
或把聚类放在嵌入空间（例如自编码器/对比学习），但要保留可解释映射

聚类输出怎么让业务愿意用？

三条原则：

每个簇都能用 3-5 个指标说清楚
每个簇都对应一个动作（参数/规则/模型）
每月复盘：簇是否稳定？动作是否带来 KPI 改善？

下一步：把“科研聚类”变成“供应链增长工具”

PLSCAN的价值不在于多了一种算法名词，而在于它把“多尺度稳定性”变成可计算、可交付的产物。对物流与供应链团队来说，这意味着：分群从一次性报告，变成可持续的决策基础设施。

如果你正在搭建供应链智能分析平台（需求预测、库存优化、仓内自动化协同），我建议从一个小切口开始：选一个对象（SKU 或订单），跑出稳定簇，然后把簇绑定到一个可量化动作上（比如安全库存规则或波次模板）。做出闭环，后面才有资格谈规模化。

你更想先解决哪类分群问题：SKU 需求形态、仓内订单形态，还是线路与到货波动？我更倾向从“最接近现金流”的那一个开始。