人工智能在物流与供应链•2026年2月12日•By 3L3C

借鉴 Associa 案例：用 Bedrock 做文档分类，准确率95%、成本降一半。把它接入供应链工作流与AI语音助手，减少人工返工。

智能文档处理文档自动分类供应链数字化工作流自动化Amazon BedrockOCR生成式AI落地

Featured image for AI文档分类自动化：成本降一半，准确率95%

AI文档分类自动化：成本降一半，准确率95%

企业里最“隐形”的成本，往往不是软件订阅费，而是人把文件翻来翻去、改来改去、找来找去的时间。Associa 这种体量的公司当然更痛：他们管理约 4,800 万份文档（26TB），每天都有新文件涌入。分类做得慢一点，后面的审批、对账、理赔、合同执行就会跟着堵。

这篇文章放在「人工智能在物流与供应链」系列里，其实特别合适。因为物流与供应链团队同样被“文档洪水”淹没：提单、装箱单、报关资料、供应商合同、保险证明、签收回单、异常邮件……文件一旦分错类或找不到，轻则延误，重则合规风险。

AWS 最近分享的 Associa 案例很直白：他们用 Amazon Bedrock + GenAI IDP Accelerator 做文档自动分类，跑出一个很现实的结果——准确率 95%，平均成本 0.55 美分/份，而且把“Unknown（无法确定类别）”这类最麻烦的文件也处理得更好。更关键的是：他们做的不是“炫技 Demo”，而是能嵌进工作流、能算账、能规模化的自动化。

为什么“文档分类”会拖垮供应链效率

文档分类慢，会直接变成业务节拍慢。 在供应链场景里，很多动作都依赖“文档先到位、且被正确归档”：

报关与合规：证书、原产地证明、MSDS 分错类，审核人找不到就是延误。
运输与对账：POD（签收）、运费发票、异常赔付资料混在一起，会把对账周期拉长。
供应商管理：合同、SLA、保险证明如果无法按类型快速检索，谈判和风险控制都会变慢。

我见过不少团队试过“规则引擎 + 关键词匹配”，前期挺好用，后期就崩。原因很简单：

文档样式不稳定：供应商模板各不相同，扫描件质量参差不齐。
内容噪声巨大：转发邮件线程、草稿水印、页脚页眉会把规则带偏。
类目增长不可控：业务一扩张，新增类目、子类目会迅速把维护成本推高。

Associa 的痛点本质上是：当文档量上到千万级，人力分类不再是“岗位问题”，而是“系统性瓶颈”。

案例拆解：Associa 用 Bedrock 做到 95% 准确率

先说结论（这也是这套方案最值得抄的地方）：Associa 并不是盲目把 PDF 丢给大模型，而是用一套评估框架，把输入、提示设计、模型选择三件事逐一做实验，最后找到性价比最优解。

他们的评估数据集是 465 份 PDF，覆盖 8 种明确文档类型（例如 Minutes、Contracts、Certificate of Insurance 等）以及一类 Unknown（例如草稿或邮件往来导致无法满足分类标准）。这点很现实：真实企业数据里，“不确定类”永远存在。

关键发现 1：只用第一页，准确率更高、成本更低

直觉上，很多人会认为“全量输入更完整”。Associa 的测试结果刚好相反：

全 PDF（所有页）：总体准确率 91%，平均成本 1.10 美分/份
只用第一页：总体准确率提升到 95%，平均成本降到 0.55 美分/份

更戏剧性的提升发生在 Unknown：

全 PDF：Unknown 仅 40%
仅第一页：Unknown 提升到 85%

原因也不玄学：第一页通常包含标题、抬头、关键字段布局；而后面页面常混入附件、邮件线程、条款页、扫描噪点，反而会干扰分类。

供应链文档同理。 提单/发票/装箱单的“判别特征”往往集中在第一页：承运人信息、发票抬头、箱号表格布局、报关编码区域。你让模型看完整 PDF，反而容易被条款页或附表带偏。

关键发现 2：纯图像更便宜，但 Unknown 会变差

他们比较了两种提示设计：

OCR + 图像（多模态）：准确率 95%，Unknown 85%，成本 0.55 美分/份
仅图像（不做 OCR）：准确率 93%，Unknown 50%，成本 0.18 美分/份

如果你只看总体准确率，可能会想“93% 也能用，还便宜”。但在运营里，Unknown 的质量决定了人工复核的工作量：Unknown 越准，你就越能把“需要人看”的文件聚焦到真正难的那部分。

我的观点很明确：企业落地时不要只盯平均准确率，要盯“异常/不确定类”的可控性。 因为真正吃掉你成本的，恰恰是那 5%–10% 的边角料。

关键发现 3：模型选择要算“每份文件的边际收益”

在“第一页 + OCR + 图像”的最优输入下，他们对比了不同模型（Bedrock 上的 Nova 系列与 Claude Sonnet 4）：

Amazon Nova Pro：总体 95%，Unknown 85%，0.55 美分/份
Amazon Nova Lite：总体 95%，Unknown 50%，0.41 美分/份
Amazon Nova Premier：总体 96%，Unknown 90%，1.12 美分/份
Claude Sonnet 4：总体 95%，Unknown 95%，1.21 美分/份

最后他们选了 Nova Pro，理由很商业：总体差异不大，但成本差异很大；Unknown 虽然不是最高，但已经能支撑流程。

这给物流与供应链团队一个很好的“选型公式”：

先定义你最在意的指标（比如 Unknown 的召回、错分代价、合规风险）
再算清楚每提升 1% 需要多花多少钱
用业务成本而不是技术兴奋感做决策

从文档分类到“AI 语音助手 + 自动化工作流”：怎么接起来

很多人把 IDP（智能文档处理）当成孤立系统，实际上它最适合成为工作流的触发器。分类只是第一步，后面才是效率真正产生的地方。

一个可复制的供应链自动化链路是：

文档进入：邮箱附件、扫描件、供应商门户上传、EDI 转 PDF
AI 分类：识别为提单/发票/装箱单/保险证明/合同/异常邮件等
路由到对应队列：财务、报关、运输、采购、风控
字段抽取 + 校验：例如发票号、金额、币种、箱号、HS code、承运人
自动创建任务：在工单系统/ERP/TMS/WMS 中生成待办
AI 语音助手参与（这就是本次活动主题的桥接点）：
- 仓库主管开车/搬货时，用语音问：“今天待处理的 POD 有多少？”
- 报关专员用语音下指令：“把 Unknown 队列里疑似 MSDS 的文件优先给我。”
- 财务用语音核对：“显示本周运费发票中金额异常的 10 份文件。”

关键在于：分类结果是结构化的“意图”，它能驱动后续自动化。语音助手则是“最省手的 UI”，特别适合仓库、现场、移动办公等场景。

小企业也能用：别照抄架构，照抄方法

Associa 的体量很大，但方法对小企业更有意义：从最小可行闭环开始，把钱花在能减少人工返工的地方。

你可以从这 3 个问题开始

你每天最常见的 5–10 种文件是什么？
- 例如：发票、装箱单、提单、签收、异常邮件、报价单
错分的代价是什么？
- 延误出货？罚款？多付运费？合规审计风险？
Unknown 应该怎么处理？
- Unknown 不是失败，而是“需要人工的清单”。但它必须足够准，否则人工队列会爆。

一个实用的落地路线（4 周版）

第 1 周：数据与类目清单
- 先收集 200–500 份真实文件
- 类目不要贪多，先定 8–12 类
第 2 周：先做“第一页分类”基线
- 你会惊讶地发现，很多问题直接被这一刀解决
第 3 周：加 OCR，看 Unknown 是否显著改善
- 如果 Unknown 仍然混乱，宁可加 OCR，也别急着换最贵模型
第 4 周：接入工单/邮件/IM 通知，形成闭环
- 让分类结果自动分派给人或系统，而不是停留在一个看板上

我更推荐你把评估指标写死：

总体准确率 ≥ 93%（多数企业够用）
Unknown 准确率/可解释性持续提升（直接决定人工负担）
每份文件成本可预测（别让成本随业务波动失控）

常见追问：大家真正关心的 3 件事

1) 为什么“只看第一页”能更准？

因为分类更依赖版式与关键元素（标题、抬头、表格结构、关键字段区域），这些往往集中在第一页。后续页更像“内容延伸”，噪声更高。

2) OCR 值不值得加？

如果你的文档里有大量扫描件、传真、倾斜、低清晰度，OCR 往往是“买准确率”的最划算方式之一。Associa 的数据也说明：OCR + 图像能显著提高 Unknown 处理能力。

3) 模型是不是越大越好？

不是。Associa 的对比很清楚：总体准确率差距很小，但成本差距很大。企业最该追求的是：

“用最便宜的配置，稳定达到业务可接受的准确率阈值。”

把这件事做成流程，而不是项目

Associa 的结果可以用一句话概括：95% 准确率、0.55 美分/份、并且能规模化运行。但真正值得学的不是某个模型名字，而是他们的工作方式：从输入开始做实验，把 Unknown 当成核心指标，用成本/准确率做取舍。

在物流与供应链里，文档自动分类不是“后台整理”，它是通关速度、对账周期、异常处理时效的前置条件。下一步更明显的趋势是：分类与字段抽取会成为自动化工作流的触发器，而 AI 语音助手会变成现场团队访问这些流程的主要入口。

你现在手里最乱、最耗人、最容易出错的那一类供应链文档是什么？如果我们把它的“第一页分类”先跑通，后面的自动化空间会比你想的更大。