人工智能在物流与供应链•2026年2月3日•By 3L3C

用“模型分歧”做学习信号：小模型跑日常，大模型只处理难例并沉淀知识库，让供应链自动化越跑越准、越跑越省。

供应链物流自动化生成式AI知识库多模型系统语音助手

Featured image for 让AI自己纠错：用“分歧”驱动高效自动化

让AI自己纠错：用“分歧”驱动高效自动化

供应链和物流团队最容易被“信息脏活”拖垮：SKU资料不全、包装规格写法不一、供应商表格字段乱飞、客服与仓库用的物料编码对不上。你把这些数据喂给系统，系统就把错误放大——拣货走错库位、发错配件、退货率上升、跨境申报卡关。

亚马逊 Catalog 团队在 2026 年初公开了一套很值得借鉴的思路：别指望一次选对模型，而是把“模型之间的分歧”当成自动化学习信号。他们用多个小模型处理海量商品信息；当小模型意见一致就直接通过，当出现分歧才调用更强的“主管模型/监督代理”调查、裁决，并把结论沉淀成可复用知识，再回灌到日常流程里。结果是：质量更稳，成本反而会随时间下降。

这篇文章把它改写成我们“人工智能在物流与供应链”系列里的一个实战型案例：不管你是电商仓配、制造业备件、跨境物流、还是 3PL，只要你在做高频、重复、但又充满例外情况的流程自动化（尤其是语音助手 + 自动化工作流），都能用这套结构把 AI 变成“会自我改进的员工”。

供应链自动化的真问题：不是没AI，是例外太多

供应链和物流的自动化难点，本质上是“规则多、但规则写不完”。 你可以写 SOP：字段怎么填、箱规怎么写、危包怎么标、HS code 怎么选。但现实里每天都会出现新品牌、新材料、新组合、新缩写。

举几个典型场景（很多公司都踩过）：

主数据/商品资料（MDM）：同一个“尺寸”有时来自包装、有时来自商品本体；“适配型号”既可能是兼容列表，也可能是营销话术。
仓储作业：一张入库单里既有标准件也有非标件，描述不一致导致上架策略错误。
跨境合规：锂电、磁性、液体、粉末等敏感属性，文本里没写清楚，后续就会在承运商或海关处爆雷。
逆向物流：退货原因是自然语言，背后可能指向“信息不准确”（尺寸/材质/配件缺失）而不是产品质量。

多数团队的第一反应是“换个更强的模型”。我不太赞成。大模型更强，但把它全量跑在每一票/每个 SKU 上，成本与延迟会把你拖死；而用小模型全量跑，遇到复杂例外又会出错。 亚马逊的思路更现实：让小模型处理 80% 的常规，把大模型留给 20% 的高价值难题，并且让这 20% 的处理结果变成组织知识。

可复用的核心架构：小模型共识 + 主管模型仲裁

答案先说：用“共识路径”跑日常，用“分歧路径”专门处理复杂案例。 这比“单模型 + 人工抽检”更贴合供应链场景。

亚马逊的系统大体分三层：

Worker（工人）：多个轻量模型并行做抽取/生成（例如抽取属性、生成标题、规范字段）。
Evaluator（质检）：同样是轻量模型，但被明确提示要“挑刺”，专门找歧义、缺字段、逻辑冲突。
Supervisor（主管/监督代理）：更强的模型在分歧时介入，调用工具与更多上下文（历史、反馈、评论等）做调查，给出裁决并形成“可复用学习”。

这个结构在供应链里可以映射为：

Worker：把供应商表格、PO、装箱单、产品说明、图片 OCR 的信息抽成结构化字段（长宽高、毛净重、材质、危险品属性、配件清单、适配型号、保质期等）。
Evaluator：做“逻辑一致性检查”，比如重量与体积是否匹配、箱规与件规是否矛盾、危险品关键词是否缺少 UN 码、是否缺少原产地。
Supervisor：当发生冲突时，拉取更多证据（历史同类 SKU、供应商过往填法、退货原因、客服工单、质检记录），并给出规则化结论。

一句话概括：共识让你跑得快，分歧让你学得深。

为什么“分歧”比“置信度阈值”更好用

传统做法是看模型置信度：低就人工审，高就自动过。但在真实业务里，置信度经常不靠谱，尤其是遇到新术语、新品牌、新结构时。

“分歧信号”更接近业务事实：连多个小模型都说不清的东西，往往就是需要补上下文或建立新规则的地方。 亚马逊团队甚至总结出一个经验：

分歧率太低：可能是任务太简单，或 evaluator 太“橡皮图章”（啥都通过），学不到东西。
分歧率太高：说明 worker 能力不够或提示词不成熟，会导致主管调用过多，成本失控。
中等分歧率：最容易产出可复用学习。

这对中小企业尤其重要：你没那么多预算一直调用大模型，所以必须把大模型用在“最值得用”的地方。

让系统越跑越省：把裁决沉淀成“知识库”，再注入提示词

答案先说：别把改进寄托在频繁训练上，把可复用结论写进一个可审计的知识库。 这也是它“自学习”的关键。

亚马逊的做法是：主管模型每次解决分歧，不只是修正当前输出，还会生成一条可复用的 learning（经验）。这些经验被组织成层级化知识库（按品类/子类/属性类型拆分），并在下一次推理时自动注入 worker 的提示词。

在供应链场景里，你可以把“learning”设计得非常具体，像这样：

包装与商品本体区分规则：若文本出现“pack of / 2pcs / set / kit”，尺寸字段优先抽取“单件尺寸”，并额外输出“套装内含数量”。
危险品提示规则：若出现“lithium / li-ion / battery included”，则必须输出 battery_type 与 battery_contained，并触发合规字段校验。
跨境申报一致性规则：若材质为“stainless steel”，但申报品名包含“plastic”，标记为冲突并进入主管仲裁。

关键点在于：知识库让你从“抽检海量输出”变成“审计有限知识”。 这非常省人——你不可能每天复核 10 万条字段，但你可以每周审计 50 条新增规则，并让它影响后续所有单据与 SKU。

把“业务反馈”也变成学习信号

亚马逊不仅看模型分歧，还看事后反馈：卖家修改、申诉、客户退货与差评。

供应链里对应的信号非常多，而且更直接：

仓库复核改动（上架时改了重量/尺寸）
承运商拒载原因（危险品、超尺寸、包装不符）
海关退单/查验原因（品名不符、材质不清、原产地缺失）
客诉与退货原因（“尺寸不对”“缺配件”“与描述不符”）

把这些信号喂回学习管道，你会得到一种“运营驱动的 AI 改进”：不是 AI 团队凭感觉调 prompt，而是用真实的业务后果来塑形。

中小企业怎么落地：用最小可行方案跑起来

答案先说：先选一个高频、可量化、错误代价高的流程做试点，然后用两条指标管住质量与成本。

你不需要一开始就做成亚马逊那样的超大系统。一个中小团队的“最小可行架构（MVP）”可以是：

第一步：选一个“高频 + 例外多”的场景

我建议从这三类里挑一个：

商品/物料主数据自动补全（影响 WMS、TMS、关务、前端展示）
入库与装箱单字段结构化（影响仓库效率与计费准确性）
退货原因归因与改进建议（直接减少逆向物流成本）

第二步：设计“工人-质检-主管”的分工

工人模型：2 个小模型（或同一模型不同提示词）并行抽取字段。
质检模型：1 个小模型做挑刺，输出 pass/fail + reasons。
主管模型：只在 fail 或两工人不一致时调用，输出最终字段 + learning。

第三步：把 learning 写成“可执行的规则”，并可追溯

每条 learning 至少包含：

适用范围（品类/字段/语言/来源文档类型）
触发条件（关键词、字段组合、阈值）
行动建议（优先级、输出字段、是否需要人工确认）
例外说明（哪些情况不要套用）

这会直接决定你的知识库是“越用越乱”，还是“越用越值钱”。

第四步：用两条指标盯住系统健康

分歧率（Disagreement Rate）：应当随时间下降。下降说明知识注入有效、例外被吸收。
主管调用率（Supervisor Call Rate）：应当在可控区间，并随时间下降。下降说明系统在省钱。

如果分歧率不降，优先检查三件事：

知识库检索是否拿到了“对的那几条”规则
注入提示词是否被 worker 真实执行（提示词太长也会失效）
evaluator 是否足够“严”（别当好好先生）

把它接到“AI语音助手与自动化工作流”里：更贴近一线

答案先说：语音入口特别适合采集例外信息，而分歧架构特别适合把例外变成规则。

在仓库与运输现场，最常见的问题不是“没数据”，而是“数据来不及录”。语音助手可以把一线的碎片信息（破损、缺件、外箱变形、实际测量尺寸）快速记录下来。

更关键的是：当语音记录与系统字段发生冲突时，这就是新的“分歧信号”。你可以设定自动化工作流：

现场语音记录“实际毛重 12.4kg”，但系统毛重 9kg
evaluator 判定冲突，触发主管
主管拉取同批次入库、计费重、历史 SKU，给出裁决与 learning
learning 回灌后，后续同类商品自动提示“需二次称重/复核”

这类闭环，会让你的仓库越来越“少靠经验、多靠系统”，而且系统会记住经验。

你该从哪里开始（不需要等完美）

把亚马逊的思路放到供应链里，我最认同的一点是：别把 AI 当成一次性上线的软件，把它当成员工培养体系。 你给它任务、给它质检、给它主管、给它复盘机制，它就会稳定成长。

如果你想在 30 天内做出一个可见的成果，我建议这样排期：

第 1 周：选场景 + 定义字段与错误代价（错一次会带来什么成本）
第 2 周：搭 worker/evaluator 提示词 + 记录分歧样本
第 3 周：接入主管仲裁 + 自动生成 learning 草稿
第 4 周：建立小型知识库 + 注入回 worker + 观察分歧率趋势

供应链的下一波效率提升，不只来自更大的模型，而来自更像“运营系统”的 AI：会质检、会复盘、会把例外写成可复用的规则。

你现在的业务里，哪一类“例外”最耗人：主数据补全、入库复核、还是跨境合规？把那个点挑出来，让分歧为你打工。