用生成式AI做文档分类:省时、省钱、少返工

人工智能在物流与供应链By 3L3C

借鉴 Associa 案例:用生成式AI自动文档分类,把供应链单据分流提速到 95% 准确率,并控制成本与返工。

智能文档处理生成式AI物流与供应链工作流自动化Amazon BedrockOCR文档管理
Share:

Featured image for 用生成式AI做文档分类:省时、省钱、少返工

用生成式AI做文档分类:省时、省钱、少返工

把“文档分拣”当成人工活儿的公司,通常会在一个地方栽跟头:业务量一上来,流程就开始堵。

AWS 最近发布的一个真实案例很直观:Associa 这家公司管理约 4,800 万份文档(26TB),每天都有大量合同、保险证明、会议纪要、章程等文件涌入。过去靠员工手动归类,既慢又容易错,检索和流转一拖再拖。后来他们用 Amazon Bedrock + GenAI IDP Accelerator 做自动文档分类,最终做到 95% 分类准确率,并把平均推理成本压到 每份 0.55 美分

这篇文章把这个“大企业案例”翻译成更适合小团队、尤其是物流与供应链场景的做法:如何用生成式 AI 把收货单、提单、报关材料、运单、对账单、合同、保单等文件自动分流进正确的流程,减少返工,让人去做更有价值的事情(异常处理、客户沟通、成本优化)。

文档分类为什么会卡住供应链效率?

答案很简单:供应链系统吃“结构化数据”,而现实给的是“非结构化文件”。

在物流与供应链里,很多关键动作都依赖文档:入库要匹配 PO/ASN,跨境要核对发票与装箱单,承运要绑定运单号,财务要对账,风控要识别保险与责任条款。文档如果没被及时、准确地归类到正确的单据类型和业务对象(订单/运单/客户/供应商),后面所有环节都会被迫“人工补洞”。

我见过最常见的三类隐性成本:

  • 延迟成本:文件进系统慢半天,仓库就可能多等半天;跨境材料晚提交,清关窗口就错过。
  • 错误成本:把“装箱单”当“商业发票”、把“保险证明”当“合同附件”,下游自动化规则直接失效。
  • 检索成本:需要追溯时找不到版本、找不到最新签署页,最后只能群发消息问人。

Associa 的痛点本质上就是这件事:文档量大、类型多、分支机构多,人工分类变成瓶颈。

Associa 做对了什么:把分类当成一个可评测的“模型+流程”问题

**他们没有先追求“更聪明的模型”,而是先把输入、提示词、模型选择做成可量化的评测。**这点非常值得抄作业。

Associa 的评测数据集是 465 份 PDF,覆盖 8 类明确文档类型(比如 Minutes、Contracts、Bylaws 等)外加一个 Unknown 类(草稿/邮件线程等不满足归类标准的文件)。这很贴近供应链现实:你永远会收到一些“看起来像,但又不是”的材料。

他们优化了三件事:

  1. 输入内容:整份 PDF vs 只用第一页
  2. 提示词设计:只给图片 vs 图片 + OCR 文本(Textract 提取布局文本)
  3. 模型选择:Nova Lite/Pro/Premier 与 Claude Sonnet 4

接下来我们把关键结论拆开讲,并映射到物流与供应链。

关键结论 1:只用“第一页”往往更准、更便宜

直接结论:只用 PDF 第一页,整体准确率从 91% 提升到 95%,成本从 1.10 美分降到 0.55 美分/份。

这听上去反直觉,但原因很务实:

  • 第一页通常有最强的“识别信号”(标题、表头、抬头、编号、公司信息、单据名称)
  • 后续页更容易引入噪声(邮件往来、草稿水印、附件混排、签字页单独扫描)

更重要的是:Unknown 类的识别从 40% 飙到 85%。这对自动化工作流意义巨大,因为 Unknown 往往代表“需要人工复核”的队列。

放到物流与供应链:第一页就是“分流开关”

供应链文件同样如此:

  • 提单(B/L)第一页往往就有船名航次、提单号、发货人/收货人
  • 商业发票第一页通常有发票号、币种、贸易术语
  • 运输对账单第一页通常有账期、承运商、总金额

如果你的目标是先把文件自动送到正确流程(清关/入库/对账/理赔),第一页的信号往往已经足够。

关键结论 2:纯图片更便宜,但“Unknown”会拖垮效率

Associa 还测试了“只给模型图片,不给 OCR 文本”,想省掉 Textract 成本。

**结果:整体准确率 93%(略降),但 Unknown 类准确率从 85% 掉到 50%。**成本确实很低(约 0.18 美分/份),但运营上可能是亏的。

原因也很直接:

  • 图片里很多关键字段太小、模糊、被压缩,模型读不稳
  • OCR 文本能补足“可检索的语义线索”(比如“Certificate of Insurance”“Minutes”这种强特征词)

放到物流与供应链:便宜不等于省钱

如果 Unknown 识别差,系统会把大量文件“误送”到错误队列。你省下来的 OCR 成本,可能被以下成本吃掉:

  • 人工二次分拣
  • 下游流程失败后的回滚和补录
  • SLA 延误和客户投诉

我的立场很明确:只要你的流程里存在“异常队列”,就别轻易牺牲 Unknown 的识别能力。

关键结论 3:模型选择要看“边际准确率”值不值那个价

Associa 在最优输入配置(第一页 + OCR + 图片)下比较了不同模型:

  • Nova Pro:总体 95%,Unknown 85%,0.55 美分/份
  • Nova Lite:总体 95%,Unknown 50%,0.41 美分/份
  • Nova Premier:总体 96%,Unknown 90%,1.12 美分/份
  • Claude Sonnet 4:总体 95%,Unknown 95%,1.21 美分/份

他们最后选了 Nova Pro,理由很现实:总体准确率差不多,但 Sonnet 4 虽然 Unknown 更强,成本翻倍。

放到小团队:先用“够用的模型”跑通流程

对资源紧的公司(尤其是中小物流、跨境电商、制造型外贸企业),优先级通常是:

  1. 把自动分流和追踪做起来(减少人工、减少漏单)
  2. 把可解释的评测体系建立起来(知道错在哪类)
  3. 再针对“高价值错误”加预算(比如清关材料、理赔材料)

换句话说:你不是在买模型,你是在买“每减少一次返工”的成本。

怎么把这套思路落到“AI 语音助手与自动化工作流”?

最实用的路径:用文档分类做入口,把后续动作交给自动化工作流和语音/对话入口。

你可以这样设计一条供应链自动化链路(不需要一步到位):

1) 文档进入:邮箱/网盘/扫描仪/ERP 上传

  • 触发:新邮件附件、共享文件夹新增、扫描到指定目录、系统上传
  • 动作:自动生成处理任务(job),记录来源、时间、关联业务对象

2) 预处理:只取第一页 + OCR 布局

  • 只取第一页降低成本与延迟
  • OCR 输出保留布局信息(表头/段落/字段附近关系),对票据类很关键

3) Bedrock 分类:输出“类型 + 置信度 + 理由片段”

建议分类输出不仅有 label,还要有可运营的字段:

  • document_type:如 BOL/Invoice/Packing List/Insurance/Contract/Proof of Delivery/Statement/Other
  • confidence:0-1 或 0-100
  • evidence:触发判断的关键短语或区域(方便复核)
  • route_to:对应队列或系统模块

4) 自动化工作流:按类型分流到正确的系统与人

  • 高置信度:自动归档 + 写入索引字段 + 触发下游流程
  • 中等置信度:进入“待复核”队列(人只做确认,不做重录)
  • Unknown:进入“异常队列”,并提示需要补充信息(订单号/运单号)

5) 语音助手/对话助手:让一线同事少点开系统、多点说话

这正好契合“AI 语音助手与自动化工作流”这个活动主题:

  • 仓库/现场同事可以说:
    • “把刚收到的这份文件归到 X 订单”
    • “查一下运单 123 的清关材料齐没齐”
  • 客服可以问:
    • “客户 A 最近一周的 POD 是否都回签了?”
  • 财务可以问:
    • “把 1 月承运商对账单自动匹配到运单并标记差异”

核心不是炫技,而是把“看文件、找文件、分文件”的体力活变成一句话。

你可以照抄的落地清单(小团队版)

答案先给:从 3 类文档开始,用 200–500 份样本做评测,先跑通 Unknown 队列。

  1. 选 3–5 个最常见、最影响交付的单据类型(例如:运单/提单、商业发票、装箱单、POD)
  2. 准备评测集:每类 50–100 份,额外准备 20–50 份“杂文档”作为 Unknown
  3. 先测“第一页 vs 全文”:通常第一页会赢(更快更省)
  4. 再测“图片 vs OCR+图片”:重点看 Unknown 的准确率与误分代价
  5. 设定路由策略:按置信度阈值分三段(自动/复核/异常)
  6. 把复核动作做成 10 秒任务:只让人点“确认类型/改类型”,不要让人重新录入

评测时别只盯“总体准确率”。在运营里,Unknown 的识别能力往往决定你到底是“减少人工”还是“制造新工单”。

供应链视角的下一步:从“分类”走向“端到端单据自动化”

Associa 的案例停在“文档分类”,但对物流与供应链来说,这只是入口。

当你已经能稳定分类,下一步通常是:

  • 关键字段抽取:发票号、金额、币种、箱数、重量、运单号、订单号
  • 一致性校验:发票金额 vs 报关金额、装箱数量 vs ASN、POD 日期 vs 到货
  • 异常自动生成工单:缺页、错版、信息不一致、签字缺失
  • 审计与合规留痕:谁在何时确认了哪份文件,证据片段是什么

这条路线会把“人工处理单据”的工作量持续压缩,直到你的团队把时间花在更值钱的地方:谈价、优化线路、缩短周转、处理异常。

如果你正在评估“智能文档处理(IDP)+ 生成式 AI”在供应链的可行性,一个务实的问题是:你愿意把多少返工变成一次性的流程设计?