用 Amazon Bedrock 做AI文档分类:从第一页输入、Unknown机制到工作流路由,帮法务合规团队降本增效。

AI文档分类:用Bedrock把合规文档变清晰
手动给文件“贴标签”这件事,很多团队都低估了它的破坏力:一旦分类错了,后续检索、审计、合同履约、保单追溯都会被拖慢。更现实的问题是——这种工作往往落在最忙的人身上:运营、法务助理、合规专员、前台或客服。
AWS 最近分享了一个很具体的案例:Associa(北美大型社区管理公司)管理 7,500,000 业主相关事务,员工 15,000,分支机构 300+,历史文档规模达到 48,000,000 份(约 26TB)。他们的痛点不是“没有文档系统”,而是“文档系统缺少自动分类能力”,导致每天都有人在重复做低价值却高风险的人工归档。
这篇文章把该案例转成更可落地的思路,放到我们「人工智能在法律科技与合规」系列语境里:**AI 文档分类(Intelligent Document Processing, IDP)不是炫技,它是合规与效率的基础设施。**如果你在做合同管理、保险资料留存、会议纪要归档、政策制度分发、审计取证准备,下面的做法能直接借鉴。
把“文档混乱”当成合规风险来管
答案先给:**文档分类不是行政琐事,而是合规控制点。**分类越慢、越不准,你的合规成本就越高。
在法律科技与合规场景里,文档分类失败会带来一串连锁反应:
- 检索成本暴涨:审计或纠纷发生时,定位“最终版合同/有效批文/对应保单”要靠人肉翻找。
- 版本与证据链断裂:草稿、邮件线程、附件混在一起,最后很难证明“当时到底批准了什么”。
- 权限与留存策略失效:不同文档类型对应不同保密等级、保存期限、访问控制。分类错了,等于控制错了。
Associa 的数据量和组织复杂度很典型:多分支、多业务线、多文档类型。你公司规模可能更小,但症状高度相似:文件来源多(扫描件、邮件、PDF)、类型杂(合同、制度、会议纪要、保险、图纸)、命名不统一。
这里我想讲一个常见误区:很多团队一上来就想“全量自动抽取字段”。现实里更稳的路线通常是:
先把文档分对类,再谈抽取字段与自动流转。
分类是后续自动化工作流的“路由器”。路由对了,抽取、审批、归档、权限、留存才有意义。
案例拆解:Associa 如何用 GenAI 做分类
答案先给:他们的关键不是“选了哪个模型”,而是用一套评估方法把成本、准确率、速度一起拉到可上线的水平。
Associa 与 AWS Generative AI Innovation Center 合作,基于 GenAI IDP Accelerator(可加速落地的文档处理方案)和 Amazon Bedrock 做了一个自动分类系统,目标很清晰:
- 把每天的人工分类时间砍掉
- 提升分类一致性与可审计性
- 控制推理成本(每份文档几分钱级别)
它的核心处理路径(他们选用的是 Pattern 2)可以用一句话概括:
- OCR:用 Amazon Textract 把版面与文本信息结构化
- 多模态分类:把“第一页图像 + OCR 信息”喂给 Bedrock 上的模型做分类
- 把分类结果写回文档系统/工作流,让后续动作自动触发
这跟我们做“AI 语音助手与自动化工作流”的活动主题其实是一致的:把人从重复劳动中解放出来,让系统自动把任务送到对的人手上。区别只是入口不是语音,而是文档。
他们用数据做决策:465 份 PDF、8 类文档
他们用 465 份 PDF 做评估集,涵盖 8 个主要类型(例如 Bylaws、Contracts、Minutes、Rules and Regulations 等),并额外设置了 Unknown 类:当样本是草稿/邮件往来/证据不足时,就不强行归类。
我非常赞同这个设计:**Unknown 不是失败,而是合规友好型系统的“安全阀”。**你宁可把不确定的丢给人工复核,也别自信地分错类。
三个决定成败的工程选择:页数、提示词、模型
答案先给:他们得到的最有价值结论是——只看第一页,准确率更高、成本更低。
Associa 把评估拆成三块:
1) 输入全篇 PDF vs 只用第一页
先用“全篇 PDF”做分类(Amazon Nova Pro + OCR + 图像):
- 总体准确率:91%(425/465)
- 平均成本:1.10 美分/份
- Unknown 类准确率:40%(8/20)
再改成“只用第一页”(同模型同提示):
- 总体准确率:95%(443/465)
- 平均成本:0.55 美分/份(成本直接减半)
- Unknown 类准确率:85%(17/20)
这组数字很值得贴在墙上:更多上下文不等于更好结果。
原因也很符合实际:第一页通常包含标题、抬头、关键结构(例如“Minutes”“Certificate of Insurance”),而后续页在草稿或邮件线程里反而引入噪声。
对中小团队来说,这个策略还有一个隐藏价值:吞吐量更高。一页处理比多页处理快很多,系统卡顿更少,尖峰时段更稳。
2) 只用图像 vs 图像 + OCR
他们测试了“去掉 OCR,只用图像多模态分类”来省 Textract 成本,结果是:
- 总体准确率:93%(比 95% 低)
- Unknown 准确率:50%(从 85% 掉到 50%)
- 成本:0.18 美分/份(更便宜)
我会把这看成一个典型的合规取舍题:
- 如果你的业务允许“错分了再说”,那可以压成本。
- 但在合同、保险、政策制度、审计材料这类场景里,Unknown 分得准非常关键,因为它决定了人工复核队列是否被污染。
所以他们最终选择了 OCR + 图像 的组合。你可以理解为:让模型同时看“长相”和“文字证据”。
3) 模型选择:准确率、Unknown、单份成本
在“第一页 + OCR + 图像”的最佳输入配置下,他们比较了不同模型:
- Amazon Nova Pro:总体 95%,Unknown 85%,0.55 美分/份
- Amazon Nova Lite:总体 95%,Unknown 50%,0.41 美分/份
- Amazon Nova Premier:总体 96%,Unknown 90%,1.12 美分/份
- Anthropic Claude Sonnet 4:总体 95%,Unknown 95%,1.21 美分/份
最后选 Nova Pro,理由很务实:总体准确率足够高、Unknown 也不错、成本控制得住。
给你的启发是:**别只盯“总体准确率”。**在合规与法务场景里,Unknown(或“需人工复核”)这个类的表现往往更重要。
把分类接进自动化工作流:从“识别”到“办事”
答案先给:分类真正的 ROI 来自后续自动化动作,而不是分类本身。
如果你正在规划 AI 自动化工作流,我建议把“文档类型”当成工作流的主触发条件(trigger)。一个可落地的路由图大概是这样:
- 合同(Contracts) → 进入合同审查队列 → 提取关键条款 → 触发审批/盖章流程
- 保险证明(Certificate of Insurance) → 校验有效期/承保范围 → 临期提醒 → 不合格自动退回补件
- 会议纪要(Minutes) → 归档到治理记录库 → 关键决议同步到任务系统
- 制度/政策(Policies & Resolutions / Rules) → 版本控制 → 全员分发 → 阅读确认留痕
- Unknown → 进入人工复核 → 复核结果反哺训练/提示词迭代
这里有个我强烈建议你加上的合规设计:
- 记录每次分类的输入摘要、输出类别、置信度、模型版本、提示词版本、处理时间
这不是“额外工作”,这是未来应对审计、纠纷取证、模型回溯的底座。
小团队怎么抄作业:一套可执行的落地清单
答案先给:用最小样本集做评估,先把“第一页 + Unknown”跑通,你就会很快看到效果。
你不需要一开始就有 48M 文档。对多数中小企业(尤其法务/合规驱动的行业),我建议这样起步:
1) 先定义 8–15 个“够用”的类型
别贪多。类型越多,边界越模糊,Unknown 越难管理。把高频、合规敏感、可自动化收益高的先做。
2) 采样 200–500 份文档做评估集
Associa 用了 465 份,这是很好的量级:
- 覆盖不同来源(扫描件、系统导出、邮件附件)
- 覆盖不同质量(清晰/模糊、版式不同)
- 必须包含“故意很难分”的样本,来检验 Unknown
3) 先测“全篇 vs 第一页”
大概率你会得到跟他们类似的结果:第一页更稳、更便宜。即使你最后要用多页,也应该从第一页基线开始。
4) 为 Unknown 制定处理规则
Unknown 不该被当作垃圾桶,而要有明确 SOP:
- 谁复核、多久内完成
- 复核后是否允许新增类别
- 复核结果如何沉淀(提示词、规则、示例库)
5) 把分类结果直接接到流程里
如果分类结果只是写回字段,没有触发后续动作,你的收益会被大幅打折。把它接进:
- 合同审批/归档
- 合规留存与权限控制
- 临期提醒与补件
- 案件/审计取证的检索入口
你该把目标定在什么水平?
答案先给:在合规文档分类里,95% 左右的准确率已经能明显减少人工负担,但前提是 Unknown 机制健康。
Associa 的结果是:
- 95% 总体准确率
- 0.55 美分/份 平均分类成本
如果你每月处理 50,000 份文档,单纯推理成本约 275 美元量级(不含存储、队列、工程维护)。对多数公司来说,真正的大头是人工时间——分类从“每份 30–90 秒”变成“只复核少数 Unknown/低置信度”,节省是立竿见影的。
更关键的是:分类更一致,合规风险更低。
你更愿意让团队把时间花在合同条款谈判、风险评估、供应商管理上,而不是在文件夹里拖拽 PDF。
最后留个问题给你:如果从下周开始,你的合规团队不再“整理文件”,而是只处理被系统标记为 Unknown 的少数例外——你的工作流会变得更清晰,还是会暴露出以前被手工掩盖的流程问题?