AI文档分类:用Bedrock把合规文档变清晰

人工智能在法律科技与合规By 3L3C

用 Amazon Bedrock 做AI文档分类:从第一页输入、Unknown机制到工作流路由,帮法务合规团队降本增效。

IDPAmazon Bedrock合规自动化合同管理OCR文档工作流法律科技
Share:

Featured image for AI文档分类:用Bedrock把合规文档变清晰

AI文档分类:用Bedrock把合规文档变清晰

手动给文件“贴标签”这件事,很多团队都低估了它的破坏力:一旦分类错了,后续检索、审计、合同履约、保单追溯都会被拖慢。更现实的问题是——这种工作往往落在最忙的人身上:运营、法务助理、合规专员、前台或客服。

AWS 最近分享了一个很具体的案例:Associa(北美大型社区管理公司)管理 7,500,000 业主相关事务,员工 15,000,分支机构 300+,历史文档规模达到 48,000,000 份(约 26TB)。他们的痛点不是“没有文档系统”,而是“文档系统缺少自动分类能力”,导致每天都有人在重复做低价值却高风险的人工归档。

这篇文章把该案例转成更可落地的思路,放到我们「人工智能在法律科技与合规」系列语境里:**AI 文档分类(Intelligent Document Processing, IDP)不是炫技,它是合规与效率的基础设施。**如果你在做合同管理、保险资料留存、会议纪要归档、政策制度分发、审计取证准备,下面的做法能直接借鉴。

把“文档混乱”当成合规风险来管

答案先给:**文档分类不是行政琐事,而是合规控制点。**分类越慢、越不准,你的合规成本就越高。

在法律科技与合规场景里,文档分类失败会带来一串连锁反应:

  • 检索成本暴涨:审计或纠纷发生时,定位“最终版合同/有效批文/对应保单”要靠人肉翻找。
  • 版本与证据链断裂:草稿、邮件线程、附件混在一起,最后很难证明“当时到底批准了什么”。
  • 权限与留存策略失效:不同文档类型对应不同保密等级、保存期限、访问控制。分类错了,等于控制错了。

Associa 的数据量和组织复杂度很典型:多分支、多业务线、多文档类型。你公司规模可能更小,但症状高度相似:文件来源多(扫描件、邮件、PDF)、类型杂(合同、制度、会议纪要、保险、图纸)、命名不统一

这里我想讲一个常见误区:很多团队一上来就想“全量自动抽取字段”。现实里更稳的路线通常是:

先把文档分对类,再谈抽取字段与自动流转。

分类是后续自动化工作流的“路由器”。路由对了,抽取、审批、归档、权限、留存才有意义。

案例拆解:Associa 如何用 GenAI 做分类

答案先给:他们的关键不是“选了哪个模型”,而是用一套评估方法把成本、准确率、速度一起拉到可上线的水平。

Associa 与 AWS Generative AI Innovation Center 合作,基于 GenAI IDP Accelerator(可加速落地的文档处理方案)和 Amazon Bedrock 做了一个自动分类系统,目标很清晰:

  • 把每天的人工分类时间砍掉
  • 提升分类一致性与可审计性
  • 控制推理成本(每份文档几分钱级别)

它的核心处理路径(他们选用的是 Pattern 2)可以用一句话概括:

  1. OCR:用 Amazon Textract 把版面与文本信息结构化
  2. 多模态分类:把“第一页图像 + OCR 信息”喂给 Bedrock 上的模型做分类
  3. 把分类结果写回文档系统/工作流,让后续动作自动触发

这跟我们做“AI 语音助手与自动化工作流”的活动主题其实是一致的:把人从重复劳动中解放出来,让系统自动把任务送到对的人手上。区别只是入口不是语音,而是文档。

他们用数据做决策:465 份 PDF、8 类文档

他们用 465 份 PDF 做评估集,涵盖 8 个主要类型(例如 Bylaws、Contracts、Minutes、Rules and Regulations 等),并额外设置了 Unknown 类:当样本是草稿/邮件往来/证据不足时,就不强行归类。

我非常赞同这个设计:**Unknown 不是失败,而是合规友好型系统的“安全阀”。**你宁可把不确定的丢给人工复核,也别自信地分错类。

三个决定成败的工程选择:页数、提示词、模型

答案先给:他们得到的最有价值结论是——只看第一页,准确率更高、成本更低

Associa 把评估拆成三块:

1) 输入全篇 PDF vs 只用第一页

先用“全篇 PDF”做分类(Amazon Nova Pro + OCR + 图像):

  • 总体准确率:91%(425/465)
  • 平均成本:1.10 美分/份
  • Unknown 类准确率:40%(8/20)

再改成“只用第一页”(同模型同提示):

  • 总体准确率:95%(443/465)
  • 平均成本:0.55 美分/份(成本直接减半)
  • Unknown 类准确率:85%(17/20)

这组数字很值得贴在墙上:更多上下文不等于更好结果。

原因也很符合实际:第一页通常包含标题、抬头、关键结构(例如“Minutes”“Certificate of Insurance”),而后续页在草稿或邮件线程里反而引入噪声。

对中小团队来说,这个策略还有一个隐藏价值:吞吐量更高。一页处理比多页处理快很多,系统卡顿更少,尖峰时段更稳。

2) 只用图像 vs 图像 + OCR

他们测试了“去掉 OCR,只用图像多模态分类”来省 Textract 成本,结果是:

  • 总体准确率:93%(比 95% 低)
  • Unknown 准确率:50%(从 85% 掉到 50%)
  • 成本:0.18 美分/份(更便宜)

我会把这看成一个典型的合规取舍题:

  • 如果你的业务允许“错分了再说”,那可以压成本。
  • 但在合同、保险、政策制度、审计材料这类场景里,Unknown 分得准非常关键,因为它决定了人工复核队列是否被污染。

所以他们最终选择了 OCR + 图像 的组合。你可以理解为:让模型同时看“长相”和“文字证据”。

3) 模型选择:准确率、Unknown、单份成本

在“第一页 + OCR + 图像”的最佳输入配置下,他们比较了不同模型:

  • Amazon Nova Pro:总体 95%,Unknown 85%,0.55 美分/份
  • Amazon Nova Lite:总体 95%,Unknown 50%,0.41 美分/份
  • Amazon Nova Premier:总体 96%,Unknown 90%,1.12 美分/份
  • Anthropic Claude Sonnet 4:总体 95%,Unknown 95%,1.21 美分/份

最后选 Nova Pro,理由很务实:总体准确率足够高、Unknown 也不错、成本控制得住。

给你的启发是:**别只盯“总体准确率”。**在合规与法务场景里,Unknown(或“需人工复核”)这个类的表现往往更重要。

把分类接进自动化工作流:从“识别”到“办事”

答案先给:分类真正的 ROI 来自后续自动化动作,而不是分类本身。

如果你正在规划 AI 自动化工作流,我建议把“文档类型”当成工作流的主触发条件(trigger)。一个可落地的路由图大概是这样:

  1. 合同(Contracts) → 进入合同审查队列 → 提取关键条款 → 触发审批/盖章流程
  2. 保险证明(Certificate of Insurance) → 校验有效期/承保范围 → 临期提醒 → 不合格自动退回补件
  3. 会议纪要(Minutes) → 归档到治理记录库 → 关键决议同步到任务系统
  4. 制度/政策(Policies & Resolutions / Rules) → 版本控制 → 全员分发 → 阅读确认留痕
  5. Unknown → 进入人工复核 → 复核结果反哺训练/提示词迭代

这里有个我强烈建议你加上的合规设计:

  • 记录每次分类的输入摘要、输出类别、置信度、模型版本、提示词版本、处理时间

这不是“额外工作”,这是未来应对审计、纠纷取证、模型回溯的底座。

小团队怎么抄作业:一套可执行的落地清单

答案先给:用最小样本集做评估,先把“第一页 + Unknown”跑通,你就会很快看到效果。

你不需要一开始就有 48M 文档。对多数中小企业(尤其法务/合规驱动的行业),我建议这样起步:

1) 先定义 8–15 个“够用”的类型

别贪多。类型越多,边界越模糊,Unknown 越难管理。把高频、合规敏感、可自动化收益高的先做。

2) 采样 200–500 份文档做评估集

Associa 用了 465 份,这是很好的量级:

  • 覆盖不同来源(扫描件、系统导出、邮件附件)
  • 覆盖不同质量(清晰/模糊、版式不同)
  • 必须包含“故意很难分”的样本,来检验 Unknown

3) 先测“全篇 vs 第一页”

大概率你会得到跟他们类似的结果:第一页更稳、更便宜。即使你最后要用多页,也应该从第一页基线开始。

4) 为 Unknown 制定处理规则

Unknown 不该被当作垃圾桶,而要有明确 SOP:

  • 谁复核、多久内完成
  • 复核后是否允许新增类别
  • 复核结果如何沉淀(提示词、规则、示例库)

5) 把分类结果直接接到流程里

如果分类结果只是写回字段,没有触发后续动作,你的收益会被大幅打折。把它接进:

  • 合同审批/归档
  • 合规留存与权限控制
  • 临期提醒与补件
  • 案件/审计取证的检索入口

你该把目标定在什么水平?

答案先给:在合规文档分类里,95% 左右的准确率已经能明显减少人工负担,但前提是 Unknown 机制健康。

Associa 的结果是:

  • 95% 总体准确率
  • 0.55 美分/份 平均分类成本

如果你每月处理 50,000 份文档,单纯推理成本约 275 美元量级(不含存储、队列、工程维护)。对多数公司来说,真正的大头是人工时间——分类从“每份 30–90 秒”变成“只复核少数 Unknown/低置信度”,节省是立竿见影的。

更关键的是:分类更一致,合规风险更低。

你更愿意让团队把时间花在合同条款谈判、风险评估、供应商管理上,而不是在文件夹里拖拽 PDF。

最后留个问题给你:如果从下周开始,你的合规团队不再“整理文件”,而是只处理被系统标记为 Unknown 的少数例外——你的工作流会变得更清晰,还是会暴露出以前被手工掩盖的流程问题?