用生成式AI做文档分类与工作流路由:参考Associa案例,95%准确率、0.55美分/份,并给出供应链落地清单。

用生成式AI自动分拣文档:成本降到0.55美分
物流与供应链团队最常被低估的“吞金兽”,不是干线运费,也不是仓库租金,而是文档。提单、报关资料、保险证明、合同、作业指令、异常邮件、会议纪要——它们不直接创造收入,却能在每一次查找、复核、归档时消耗大量人力。
Associa 的案例把这件事讲得很直白:他们管理约 4,800 万份文档(26TB),过去大量依靠人工分类,慢、易错、还会形成流程瓶颈。更关键的是,他们用 Amazon Bedrock + GenAI IDP Accelerator 做到自动分类 95% 准确率,并把推理成本压到每份文档约 0.55 美分。这不是“炫技型 AI”,而是一套能嵌进业务流程、把人从重复劳动里解放出来的自动化工作流。
这篇文章放在《人工智能在物流与供应链》系列里,我们把它当成一个可迁移的范式:用生成式 AI 让“文件流”变得像“货物流”一样可追踪、可度量、可优化。如果你在做仓储自动化、跨境物流或供应链协同,这类能力往往比你想象得更快见效。
文档分类为什么会拖垮供应链效率
直接结论:文档不分类,后续所有环节都在为“找不到/找错”买单。
在物流与供应链里,文档分类的失败通常以三种形式出现:
- 处理延误:报关材料缺一页、保险证明放错文件夹、合同条款检索慢,导致放行延迟或对账延迟。
- 合规风险:跨境物流常见“材料齐全但归档不合规”,审计时追溯困难。
- 隐形返工:仓库异常处理、理赔、客户索赔需要回溯证据链,文件一乱,返工就开始。
很多团队会先上 OCR 或规则引擎,但现实是:
- 供应链文档格式变化大(不同承运商/不同国家/不同客户模板)。
- 邮件线程、草稿版、扫描件会引入噪声。
- 规则越来越复杂,维护成本不断上涨。
生成式 AI 的优势不在“识别文字”,而在理解它属于哪一类业务语境:这份 PDF 到底是保险证明、合同还是会议纪要?它是最终版还是草稿?它应该进入哪条流程?
Associa 做对了什么:把分类做成可评估、可控的工作流
结论先放前面:Associa 的方法论值得抄作业的点,是他们把“模型效果”拆成三件能量化的事:输入、提示设计、模型选择。
他们的数据集是 465 份 PDF,8 类文档 + Unknown(无法判定或草稿/邮件)。这点很像供应链场景:你永远会有一类“看起来像,但又不够像”的文件,需要进入人工复核队列。
1)输入怎么选:全量 PDF 不一定更聪明
很多人直觉是“给模型更多页,更准确”。Associa 的实验反而证明:只用第一页更准、更便宜。
- 用全量 PDF(Amazon Nova Pro + OCR + 图像):整体 91%,平均成本 1.10 美分/份。
- 只用第一页(同样 OCR + 图像):整体 95%,成本降到 0.55 美分/份。
更关键的是 Unknown 类:
- 全量 PDF 下 Unknown 只有 40%
- 只用第一页 Unknown 提升到 85%
原因也很“工程化”:第一页通常包含标题、抬头、关键字段、版式特征;后面页在草稿/邮件线程里会引入噪声,反而误导分类器。
供应链可迁移经验:
- 提单、发票、装箱单、保险、报关单据通常第一页信息密度最高。
- 对“异常邮件/草稿”这类内容,后续页更像聊天记录,容易把模型带偏。
2)提示设计怎么取舍:纯图像便宜,但 Unknown 会崩
Associa 进一步验证了“要不要 OCR 文本”。他们测试了:
- OCR + 图像(多模态):整体 95%,Unknown 85%,成本 0.55 美分
- 仅图像:整体 93%,Unknown 50%,成本 0.18 美分
很多团队看到 0.18 美分会心动,但 Unknown 掉到 50% 意味着:
- 复核队列会塞满“该进 Unknown 却被错分”的文件
- 下游流程可能自动触发错误分支(比如把邮件当合同)
我的判断很明确:在供应链场景里,Unknown 的准确率比整体准确率更重要。因为 Unknown 才是“需要人介入”的阀门,阀门失灵,自动化越跑越乱。
实操建议:
- 如果你的文档多为扫描件、盖章件、低清图片:保留 OCR。
- 如果你的目标是“先把 80% 标准件自动入库,剩下的进复核”:仍建议保留 OCR,确保 Unknown 足够可靠。
3)模型怎么选:别只盯总体准确率
在“第一页 + OCR + 图像”的最优输入下,他们对比了多种 Bedrock 模型:
- Amazon Nova Pro:整体 95%,Unknown 85%,0.55 美分
- Amazon Nova Lite:整体 95%,Unknown 50%,0.41 美分
- Amazon Nova Premier:整体 96%,Unknown 90%,1.12 美分
- Claude Sonnet 4:整体 95%,Unknown 95%,1.21 美分
这里的启发是:整体 95%~96% 很接近,但 Unknown 差距巨大。如果你的业务痛点集中在“异常件/非标准件”,你应该把 Unknown 当成第一指标,而不是平均分。
在成本与表现之间,Associa 选择 Nova Pro,是一个典型的“可规模化”决策:Unknown 足够好,成本足够低,适合大批量跑。
把它放进供应链:一条能落地的AI文档自动化链路
结论:你不需要先做“大一统数字化”,先把文档进来后的 5 分钟自动化做好,就能看到回报。
Associa 使用的 GenAI IDP Accelerator 是模块化架构(CloudFormation 部署),核心链路可以抽象成:
- 文档进入:邮件附件、扫描上传、系统导入(S3/文件服务)
- OCR/版面解析:提取文本与布局(如 Textract 的
analyze_document_layout) - 生成式 AI 分类:在 Bedrock 上做多模态分类
- 路由与入库:按类别写入 DMS/ERP/TMS/WMS,对 Unknown 建立复核任务
- 监控与追踪:作业状态、错误队列、成本与吞吐量
供应链里的“分类即路由”用法
把“分类”当作工作流的路由开关,你可以做这些事:
- 跨境物流:识别“商业发票/装箱单/原产地证/保险单”,自动触发报关资料校验与缺失提醒
- 仓储自动化:识别“入库单/拣货单/异常报告”,自动分派给对应班组或工单系统
- 供应链协同:识别“合同/补充协议/价格变更函”,自动通知采购与法务并归档到项目空间
- 理赔与对账:识别“签收回单/破损照片说明/保险证明”,自动组装证据包
一句话概括:文档分类不是终点,它是自动化工作流的起点。
你可以直接复用的落地清单(从一周到八周)
结论:先把范围缩小到“最常见的 6~10 类文档 + Unknown”,然后用评估框架快速迭代。
第 1 周:把问题定义成可测量指标
- 明确分类目录:例如提单、发票、装箱单、保险、合同、异常邮件、会议纪要、Unknown
- 定义成功指标:
- Overall accuracy(总体)
- Unknown accuracy(重点)
- 每份成本(含 OCR + 推理)
- 端到端耗时(从上传到入库)
第 2-3 周:做一个小而真实的数据集
- 采样 300~800 份真实文档(覆盖国家、承运商、客户)
- 标注时保留“争议样本”,并允许 Unknown 存在
- 记录“为什么难分”:模板变化、扫描质量、语言混杂、邮件线程
第 4-6 周:跑三组对照实验(照搬 Associa 框架)
- 全量 PDF vs 仅第一页
- OCR+图像 vs 仅图像
- 至少两档模型(成本档 + 效果档)
你要找的是“甜蜜点”:Unknown 足够稳 + 成本可接受 + 延迟满足业务。
第 7-8 周:接入工作流,建立人工复核闭环
- Unknown 必须进入工单/任务队列
- 复核结果回写为训练/评估样本(至少用于持续评估)
- 加上护栏:
- 低置信度强制 Unknown
- 关键类别(合同、报关核心材料)允许“双重校验”
我见过最糟糕的自动化,不是准确率低,而是把“不确定”伪装成“确定”。Unknown 做得好,系统才可控。
常见问题:团队真正会卡住的点
生成式AI分类会不会很贵?
不会必然贵。Associa 的实际数据是:95% 准确率、0.55 美分/份(第一页 + OCR + Nova Pro)。你的成本取决于页数、OCR策略、模型选择和吞吐量。
OCR 能不能省?
能省,但要看你的 Unknown 重要性。Associa 的结果很典型:省掉 OCR 后成本更低(0.18 美分/份),但 Unknown 从 85% 掉到 50%。如果你需要可靠的“分流阀”,OCR 往往值得。
这对小企业有意义吗?
更有意义。小团队最缺的是“能做例外处理的人”。把 70%~90% 的标准文档自动归档,把人留给异常、客户沟通、供应商协同,这种收益是立刻可感知的。
把“文件流”做顺,供应链才会顺
Associa 的案例给了一个非常务实的答案:生成式 AI 不需要从宏大愿景开始,它可以从最朴素的“把文件放对地方”开始,然后把自动化一路接到业务流程里。当分类成本能做到每份 0.55 美分、准确率做到 95%,你就可以把它当成供应链的“基础设施”,像条码和扫描枪一样稳定。
下一步如果你在做仓储自动化或跨境物流数字化,我建议从一个问题切入:你的团队每天花在“找文件、归档、转发、确认版本”的时间到底是多少? 把这个数字算清楚,你就知道该从哪里开始建自己的 AI 文档自动化工作流了。