人工智能在物流与供应链•2026年2月12日•By 3L3C

借鉴 Associa 案例：用生成式AI自动文档分类，把供应链单据分流提速到 95% 准确率，并控制成本与返工。

智能文档处理生成式AI物流与供应链工作流自动化Amazon BedrockOCR文档管理

Featured image for 用生成式AI做文档分类：省时、省钱、少返工

用生成式AI做文档分类：省时、省钱、少返工

把“文档分拣”当成人工活儿的公司，通常会在一个地方栽跟头：业务量一上来，流程就开始堵。

AWS 最近发布的一个真实案例很直观：Associa 这家公司管理约 4,800 万份文档（26TB），每天都有大量合同、保险证明、会议纪要、章程等文件涌入。过去靠员工手动归类，既慢又容易错，检索和流转一拖再拖。后来他们用 Amazon Bedrock + GenAI IDP Accelerator 做自动文档分类，最终做到 95% 分类准确率，并把平均推理成本压到 每份 0.55 美分。

这篇文章把这个“大企业案例”翻译成更适合小团队、尤其是物流与供应链场景的做法：如何用生成式 AI 把收货单、提单、报关材料、运单、对账单、合同、保单等文件自动分流进正确的流程，减少返工，让人去做更有价值的事情（异常处理、客户沟通、成本优化）。

文档分类为什么会卡住供应链效率？

答案很简单：供应链系统吃“结构化数据”，而现实给的是“非结构化文件”。

在物流与供应链里，很多关键动作都依赖文档：入库要匹配 PO/ASN，跨境要核对发票与装箱单，承运要绑定运单号，财务要对账，风控要识别保险与责任条款。文档如果没被及时、准确地归类到正确的单据类型和业务对象（订单/运单/客户/供应商），后面所有环节都会被迫“人工补洞”。

我见过最常见的三类隐性成本：

延迟成本：文件进系统慢半天，仓库就可能多等半天；跨境材料晚提交，清关窗口就错过。
错误成本：把“装箱单”当“商业发票”、把“保险证明”当“合同附件”，下游自动化规则直接失效。
检索成本：需要追溯时找不到版本、找不到最新签署页，最后只能群发消息问人。

Associa 的痛点本质上就是这件事：文档量大、类型多、分支机构多，人工分类变成瓶颈。

Associa 做对了什么：把分类当成一个可评测的“模型+流程”问题

**他们没有先追求“更聪明的模型”，而是先把输入、提示词、模型选择做成可量化的评测。**这点非常值得抄作业。

Associa 的评测数据集是 465 份 PDF，覆盖 8 类明确文档类型（比如 Minutes、Contracts、Bylaws 等）外加一个 Unknown 类（草稿/邮件线程等不满足归类标准的文件）。这很贴近供应链现实：你永远会收到一些“看起来像，但又不是”的材料。

他们优化了三件事：

输入内容：整份 PDF vs 只用第一页
提示词设计：只给图片 vs 图片 + OCR 文本（Textract 提取布局文本）
模型选择：Nova Lite/Pro/Premier 与 Claude Sonnet 4

接下来我们把关键结论拆开讲，并映射到物流与供应链。

关键结论 1：只用“第一页”往往更准、更便宜

直接结论：只用 PDF 第一页，整体准确率从 91% 提升到 95%，成本从 1.10 美分降到 0.55 美分/份。

这听上去反直觉，但原因很务实：

第一页通常有最强的“识别信号”（标题、表头、抬头、编号、公司信息、单据名称）
后续页更容易引入噪声（邮件往来、草稿水印、附件混排、签字页单独扫描）

更重要的是：Unknown 类的识别从 40% 飙到 85%。这对自动化工作流意义巨大，因为 Unknown 往往代表“需要人工复核”的队列。

放到物流与供应链：第一页就是“分流开关”

供应链文件同样如此：

提单（B/L）第一页往往就有船名航次、提单号、发货人/收货人
商业发票第一页通常有发票号、币种、贸易术语
运输对账单第一页通常有账期、承运商、总金额

如果你的目标是先把文件自动送到正确流程（清关/入库/对账/理赔），第一页的信号往往已经足够。

关键结论 2：纯图片更便宜，但“Unknown”会拖垮效率

Associa 还测试了“只给模型图片，不给 OCR 文本”，想省掉 Textract 成本。

**结果：整体准确率 93%（略降），但 Unknown 类准确率从 85% 掉到 50%。**成本确实很低（约 0.18 美分/份），但运营上可能是亏的。

原因也很直接：

图片里很多关键字段太小、模糊、被压缩，模型读不稳
OCR 文本能补足“可检索的语义线索”（比如“Certificate of Insurance”“Minutes”这种强特征词）

放到物流与供应链：便宜不等于省钱

如果 Unknown 识别差，系统会把大量文件“误送”到错误队列。你省下来的 OCR 成本，可能被以下成本吃掉：

人工二次分拣
下游流程失败后的回滚和补录
SLA 延误和客户投诉

我的立场很明确：只要你的流程里存在“异常队列”，就别轻易牺牲 Unknown 的识别能力。

关键结论 3：模型选择要看“边际准确率”值不值那个价

Associa 在最优输入配置（第一页 + OCR + 图片）下比较了不同模型：

Nova Pro：总体 95%，Unknown 85%，0.55 美分/份
Nova Lite：总体 95%，Unknown 50%，0.41 美分/份
Nova Premier：总体 96%，Unknown 90%，1.12 美分/份
Claude Sonnet 4：总体 95%，Unknown 95%，1.21 美分/份

他们最后选了 Nova Pro，理由很现实：总体准确率差不多，但 Sonnet 4 虽然 Unknown 更强，成本翻倍。

放到小团队：先用“够用的模型”跑通流程

对资源紧的公司（尤其是中小物流、跨境电商、制造型外贸企业），优先级通常是：

把自动分流和追踪做起来（减少人工、减少漏单）
把可解释的评测体系建立起来（知道错在哪类）
再针对“高价值错误”加预算（比如清关材料、理赔材料）

换句话说：你不是在买模型，你是在买“每减少一次返工”的成本。

怎么把这套思路落到“AI 语音助手与自动化工作流”？

最实用的路径：用文档分类做入口，把后续动作交给自动化工作流和语音/对话入口。

你可以这样设计一条供应链自动化链路（不需要一步到位）：

1) 文档进入：邮箱/网盘/扫描仪/ERP 上传

触发：新邮件附件、共享文件夹新增、扫描到指定目录、系统上传
动作：自动生成处理任务（job），记录来源、时间、关联业务对象

2) 预处理：只取第一页 + OCR 布局

只取第一页降低成本与延迟
OCR 输出保留布局信息（表头/段落/字段附近关系），对票据类很关键

3) Bedrock 分类：输出“类型 + 置信度 + 理由片段”

建议分类输出不仅有 label，还要有可运营的字段：

document_type：如 BOL/Invoice/Packing List/Insurance/Contract/Proof of Delivery/Statement/Other
confidence：0-1 或 0-100
evidence：触发判断的关键短语或区域（方便复核）
route_to：对应队列或系统模块

4) 自动化工作流：按类型分流到正确的系统与人

高置信度：自动归档 + 写入索引字段 + 触发下游流程
中等置信度：进入“待复核”队列（人只做确认，不做重录）
Unknown：进入“异常队列”，并提示需要补充信息（订单号/运单号）

5) 语音助手/对话助手：让一线同事少点开系统、多点说话

这正好契合“AI 语音助手与自动化工作流”这个活动主题：

仓库/现场同事可以说：
- “把刚收到的这份文件归到 X 订单”
- “查一下运单 123 的清关材料齐没齐”
客服可以问：
- “客户 A 最近一周的 POD 是否都回签了？”
财务可以问：
- “把 1 月承运商对账单自动匹配到运单并标记差异”

核心不是炫技，而是把“看文件、找文件、分文件”的体力活变成一句话。

你可以照抄的落地清单（小团队版）

答案先给：从 3 类文档开始，用 200–500 份样本做评测，先跑通 Unknown 队列。

选 3–5 个最常见、最影响交付的单据类型（例如：运单/提单、商业发票、装箱单、POD）
准备评测集：每类 50–100 份，额外准备 20–50 份“杂文档”作为 Unknown
先测“第一页 vs 全文”：通常第一页会赢（更快更省）
再测“图片 vs OCR+图片”：重点看 Unknown 的准确率与误分代价
设定路由策略：按置信度阈值分三段（自动/复核/异常）
把复核动作做成 10 秒任务：只让人点“确认类型/改类型”，不要让人重新录入

评测时别只盯“总体准确率”。在运营里，Unknown 的识别能力往往决定你到底是“减少人工”还是“制造新工单”。

供应链视角的下一步：从“分类”走向“端到端单据自动化”

Associa 的案例停在“文档分类”，但对物流与供应链来说，这只是入口。

当你已经能稳定分类，下一步通常是：

关键字段抽取：发票号、金额、币种、箱数、重量、运单号、订单号
一致性校验：发票金额 vs 报关金额、装箱数量 vs ASN、POD 日期 vs 到货
异常自动生成工单：缺页、错版、信息不一致、签字缺失
审计与合规留痕：谁在何时确认了哪份文件，证据片段是什么

这条路线会把“人工处理单据”的工作量持续压缩，直到你的团队把时间花在更值钱的地方：谈价、优化线路、缩短周转、处理异常。

如果你正在评估“智能文档处理（IDP）+ 生成式 AI”在供应链的可行性，一个务实的问题是：你愿意把多少返工变成一次性的流程设计？