让AI自己纠错:用“分歧”驱动高效自动化

人工智能在物流与供应链By 3L3C

用“模型分歧”做学习信号:小模型跑日常,大模型只处理难例并沉淀知识库,让供应链自动化越跑越准、越跑越省。

供应链物流自动化生成式AI知识库多模型系统语音助手
Share:

Featured image for 让AI自己纠错:用“分歧”驱动高效自动化

让AI自己纠错:用“分歧”驱动高效自动化

供应链和物流团队最容易被“信息脏活”拖垮:SKU资料不全、包装规格写法不一、供应商表格字段乱飞、客服与仓库用的物料编码对不上。你把这些数据喂给系统,系统就把错误放大——拣货走错库位、发错配件、退货率上升、跨境申报卡关。

亚马逊 Catalog 团队在 2026 年初公开了一套很值得借鉴的思路:别指望一次选对模型,而是把“模型之间的分歧”当成自动化学习信号。他们用多个小模型处理海量商品信息;当小模型意见一致就直接通过,当出现分歧才调用更强的“主管模型/监督代理”调查、裁决,并把结论沉淀成可复用知识,再回灌到日常流程里。结果是:质量更稳,成本反而会随时间下降

这篇文章把它改写成我们“人工智能在物流与供应链”系列里的一个实战型案例:不管你是电商仓配、制造业备件、跨境物流、还是 3PL,只要你在做高频、重复、但又充满例外情况的流程自动化(尤其是语音助手 + 自动化工作流),都能用这套结构把 AI 变成“会自我改进的员工”。

供应链自动化的真问题:不是没AI,是例外太多

供应链和物流的自动化难点,本质上是“规则多、但规则写不完”。 你可以写 SOP:字段怎么填、箱规怎么写、危包怎么标、HS code 怎么选。但现实里每天都会出现新品牌、新材料、新组合、新缩写。

举几个典型场景(很多公司都踩过):

  • 主数据/商品资料(MDM):同一个“尺寸”有时来自包装、有时来自商品本体;“适配型号”既可能是兼容列表,也可能是营销话术。
  • 仓储作业:一张入库单里既有标准件也有非标件,描述不一致导致上架策略错误。
  • 跨境合规:锂电、磁性、液体、粉末等敏感属性,文本里没写清楚,后续就会在承运商或海关处爆雷。
  • 逆向物流:退货原因是自然语言,背后可能指向“信息不准确”(尺寸/材质/配件缺失)而不是产品质量。

多数团队的第一反应是“换个更强的模型”。我不太赞成。大模型更强,但把它全量跑在每一票/每个 SKU 上,成本与延迟会把你拖死;而用小模型全量跑,遇到复杂例外又会出错。 亚马逊的思路更现实:让小模型处理 80% 的常规,把大模型留给 20% 的高价值难题,并且让这 20% 的处理结果变成组织知识。

可复用的核心架构:小模型共识 + 主管模型仲裁

答案先说:用“共识路径”跑日常,用“分歧路径”专门处理复杂案例。 这比“单模型 + 人工抽检”更贴合供应链场景。

亚马逊的系统大体分三层:

  1. Worker(工人):多个轻量模型并行做抽取/生成(例如抽取属性、生成标题、规范字段)。
  2. Evaluator(质检):同样是轻量模型,但被明确提示要“挑刺”,专门找歧义、缺字段、逻辑冲突。
  3. Supervisor(主管/监督代理):更强的模型在分歧时介入,调用工具与更多上下文(历史、反馈、评论等)做调查,给出裁决并形成“可复用学习”。

这个结构在供应链里可以映射为:

  • Worker:把供应商表格、PO、装箱单、产品说明、图片 OCR 的信息抽成结构化字段(长宽高、毛净重、材质、危险品属性、配件清单、适配型号、保质期等)。
  • Evaluator:做“逻辑一致性检查”,比如重量与体积是否匹配、箱规与件规是否矛盾、危险品关键词是否缺少 UN 码、是否缺少原产地。
  • Supervisor:当发生冲突时,拉取更多证据(历史同类 SKU、供应商过往填法、退货原因、客服工单、质检记录),并给出规则化结论。

一句话概括:共识让你跑得快,分歧让你学得深。

为什么“分歧”比“置信度阈值”更好用

传统做法是看模型置信度:低就人工审,高就自动过。但在真实业务里,置信度经常不靠谱,尤其是遇到新术语、新品牌、新结构时。

“分歧信号”更接近业务事实:连多个小模型都说不清的东西,往往就是需要补上下文或建立新规则的地方。 亚马逊团队甚至总结出一个经验:

  • 分歧率太低:可能是任务太简单,或 evaluator 太“橡皮图章”(啥都通过),学不到东西。
  • 分歧率太高:说明 worker 能力不够或提示词不成熟,会导致主管调用过多,成本失控。
  • 中等分歧率:最容易产出可复用学习。

这对中小企业尤其重要:你没那么多预算一直调用大模型,所以必须把大模型用在“最值得用”的地方。

让系统越跑越省:把裁决沉淀成“知识库”,再注入提示词

答案先说:别把改进寄托在频繁训练上,把可复用结论写进一个可审计的知识库。 这也是它“自学习”的关键。

亚马逊的做法是:主管模型每次解决分歧,不只是修正当前输出,还会生成一条可复用的 learning(经验)。这些经验被组织成层级化知识库(按品类/子类/属性类型拆分),并在下一次推理时自动注入 worker 的提示词。

在供应链场景里,你可以把“learning”设计得非常具体,像这样:

  • 包装与商品本体区分规则:若文本出现“pack of / 2pcs / set / kit”,尺寸字段优先抽取“单件尺寸”,并额外输出“套装内含数量”。
  • 危险品提示规则:若出现“lithium / li-ion / battery included”,则必须输出 battery_typebattery_contained,并触发合规字段校验。
  • 跨境申报一致性规则:若材质为“stainless steel”,但申报品名包含“plastic”,标记为冲突并进入主管仲裁。

关键点在于:知识库让你从“抽检海量输出”变成“审计有限知识”。 这非常省人——你不可能每天复核 10 万条字段,但你可以每周审计 50 条新增规则,并让它影响后续所有单据与 SKU。

把“业务反馈”也变成学习信号

亚马逊不仅看模型分歧,还看事后反馈:卖家修改、申诉、客户退货与差评。

供应链里对应的信号非常多,而且更直接:

  • 仓库复核改动(上架时改了重量/尺寸)
  • 承运商拒载原因(危险品、超尺寸、包装不符)
  • 海关退单/查验原因(品名不符、材质不清、原产地缺失)
  • 客诉与退货原因(“尺寸不对”“缺配件”“与描述不符”)

把这些信号喂回学习管道,你会得到一种“运营驱动的 AI 改进”:不是 AI 团队凭感觉调 prompt,而是用真实的业务后果来塑形。

中小企业怎么落地:用最小可行方案跑起来

答案先说:先选一个高频、可量化、错误代价高的流程做试点,然后用两条指标管住质量与成本。

你不需要一开始就做成亚马逊那样的超大系统。一个中小团队的“最小可行架构(MVP)”可以是:

第一步:选一个“高频 + 例外多”的场景

我建议从这三类里挑一个:

  1. 商品/物料主数据自动补全(影响 WMS、TMS、关务、前端展示)
  2. 入库与装箱单字段结构化(影响仓库效率与计费准确性)
  3. 退货原因归因与改进建议(直接减少逆向物流成本)

第二步:设计“工人-质检-主管”的分工

  • 工人模型:2 个小模型(或同一模型不同提示词)并行抽取字段。
  • 质检模型:1 个小模型做挑刺,输出 pass/fail + reasons
  • 主管模型:只在 fail 或两工人不一致时调用,输出最终字段 + learning。

第三步:把 learning 写成“可执行的规则”,并可追溯

每条 learning 至少包含:

  • 适用范围(品类/字段/语言/来源文档类型)
  • 触发条件(关键词、字段组合、阈值)
  • 行动建议(优先级、输出字段、是否需要人工确认)
  • 例外说明(哪些情况不要套用)

这会直接决定你的知识库是“越用越乱”,还是“越用越值钱”。

第四步:用两条指标盯住系统健康

  • 分歧率(Disagreement Rate):应当随时间下降。下降说明知识注入有效、例外被吸收。
  • 主管调用率(Supervisor Call Rate):应当在可控区间,并随时间下降。下降说明系统在省钱。

如果分歧率不降,优先检查三件事:

  1. 知识库检索是否拿到了“对的那几条”规则
  2. 注入提示词是否被 worker 真实执行(提示词太长也会失效)
  3. evaluator 是否足够“严”(别当好好先生)

把它接到“AI语音助手与自动化工作流”里:更贴近一线

答案先说:语音入口特别适合采集例外信息,而分歧架构特别适合把例外变成规则。

在仓库与运输现场,最常见的问题不是“没数据”,而是“数据来不及录”。语音助手可以把一线的碎片信息(破损、缺件、外箱变形、实际测量尺寸)快速记录下来。

更关键的是:当语音记录与系统字段发生冲突时,这就是新的“分歧信号”。你可以设定自动化工作流:

  • 现场语音记录“实际毛重 12.4kg”,但系统毛重 9kg
  • evaluator 判定冲突,触发主管
  • 主管拉取同批次入库、计费重、历史 SKU,给出裁决与 learning
  • learning 回灌后,后续同类商品自动提示“需二次称重/复核”

这类闭环,会让你的仓库越来越“少靠经验、多靠系统”,而且系统会记住经验。

你该从哪里开始(不需要等完美)

把亚马逊的思路放到供应链里,我最认同的一点是:别把 AI 当成一次性上线的软件,把它当成员工培养体系。 你给它任务、给它质检、给它主管、给它复盘机制,它就会稳定成长。

如果你想在 30 天内做出一个可见的成果,我建议这样排期:

  1. 第 1 周:选场景 + 定义字段与错误代价(错一次会带来什么成本)
  2. 第 2 周:搭 worker/evaluator 提示词 + 记录分歧样本
  3. 第 3 周:接入主管仲裁 + 自动生成 learning 草稿
  4. 第 4 周:建立小型知识库 + 注入回 worker + 观察分歧率趋势

供应链的下一波效率提升,不只来自更大的模型,而来自更像“运营系统”的 AI:会质检、会复盘、会把例外写成可复用的规则。

你现在的业务里,哪一类“例外”最耗人:主数据补全、入库复核、还是跨境合规?把那个点挑出来,让分歧为你打工。