人工智能在法律科技与合规•2026年2月12日•By 3L3C

用 Amazon Bedrock 做AI文档分类：从第一页输入、Unknown机制到工作流路由，帮法务合规团队降本增效。

IDPAmazon Bedrock合规自动化合同管理OCR文档工作流法律科技

Featured image for AI文档分类：用Bedrock把合规文档变清晰

AI文档分类：用Bedrock把合规文档变清晰

手动给文件“贴标签”这件事，很多团队都低估了它的破坏力：一旦分类错了，后续检索、审计、合同履约、保单追溯都会被拖慢。更现实的问题是——这种工作往往落在最忙的人身上：运营、法务助理、合规专员、前台或客服。

AWS 最近分享了一个很具体的案例：Associa（北美大型社区管理公司）管理 7,500,000 业主相关事务，员工 15,000，分支机构 300+，历史文档规模达到 48,000,000 份（约 26TB）。他们的痛点不是“没有文档系统”，而是“文档系统缺少自动分类能力”，导致每天都有人在重复做低价值却高风险的人工归档。

这篇文章把该案例转成更可落地的思路，放到我们「人工智能在法律科技与合规」系列语境里：**AI 文档分类（Intelligent Document Processing, IDP）不是炫技，它是合规与效率的基础设施。**如果你在做合同管理、保险资料留存、会议纪要归档、政策制度分发、审计取证准备，下面的做法能直接借鉴。

把“文档混乱”当成合规风险来管

答案先给：**文档分类不是行政琐事，而是合规控制点。**分类越慢、越不准，你的合规成本就越高。

在法律科技与合规场景里，文档分类失败会带来一串连锁反应：

检索成本暴涨：审计或纠纷发生时，定位“最终版合同/有效批文/对应保单”要靠人肉翻找。
版本与证据链断裂：草稿、邮件线程、附件混在一起，最后很难证明“当时到底批准了什么”。
权限与留存策略失效：不同文档类型对应不同保密等级、保存期限、访问控制。分类错了，等于控制错了。

Associa 的数据量和组织复杂度很典型：多分支、多业务线、多文档类型。你公司规模可能更小，但症状高度相似：文件来源多（扫描件、邮件、PDF）、类型杂（合同、制度、会议纪要、保险、图纸）、命名不统一。

这里我想讲一个常见误区：很多团队一上来就想“全量自动抽取字段”。现实里更稳的路线通常是：

先把文档分对类，再谈抽取字段与自动流转。

分类是后续自动化工作流的“路由器”。路由对了，抽取、审批、归档、权限、留存才有意义。

案例拆解：Associa 如何用 GenAI 做分类

答案先给：他们的关键不是“选了哪个模型”，而是用一套评估方法把成本、准确率、速度一起拉到可上线的水平。

Associa 与 AWS Generative AI Innovation Center 合作，基于 GenAI IDP Accelerator（可加速落地的文档处理方案）和 Amazon Bedrock 做了一个自动分类系统，目标很清晰：

把每天的人工分类时间砍掉
提升分类一致性与可审计性
控制推理成本（每份文档几分钱级别）

它的核心处理路径（他们选用的是 Pattern 2）可以用一句话概括：

OCR：用 Amazon Textract 把版面与文本信息结构化
多模态分类：把“第一页图像 + OCR 信息”喂给 Bedrock 上的模型做分类
把分类结果写回文档系统/工作流，让后续动作自动触发

这跟我们做“AI 语音助手与自动化工作流”的活动主题其实是一致的：把人从重复劳动中解放出来，让系统自动把任务送到对的人手上。区别只是入口不是语音，而是文档。

他们用数据做决策：465 份 PDF、8 类文档

他们用 465 份 PDF 做评估集，涵盖 8 个主要类型（例如 Bylaws、Contracts、Minutes、Rules and Regulations 等），并额外设置了 Unknown 类：当样本是草稿/邮件往来/证据不足时，就不强行归类。

我非常赞同这个设计：**Unknown 不是失败，而是合规友好型系统的“安全阀”。**你宁可把不确定的丢给人工复核，也别自信地分错类。

三个决定成败的工程选择：页数、提示词、模型

答案先给：他们得到的最有价值结论是——只看第一页，准确率更高、成本更低。

Associa 把评估拆成三块：

1) 输入全篇 PDF vs 只用第一页

先用“全篇 PDF”做分类（Amazon Nova Pro + OCR + 图像）：

总体准确率：91%（425/465）
平均成本：1.10 美分/份
Unknown 类准确率：40%（8/20）

再改成“只用第一页”（同模型同提示）：

总体准确率：95%（443/465）
平均成本：0.55 美分/份（成本直接减半）
Unknown 类准确率：85%（17/20）

这组数字很值得贴在墙上：更多上下文不等于更好结果。

原因也很符合实际：第一页通常包含标题、抬头、关键结构（例如“Minutes”“Certificate of Insurance”），而后续页在草稿或邮件线程里反而引入噪声。

对中小团队来说，这个策略还有一个隐藏价值：吞吐量更高。一页处理比多页处理快很多，系统卡顿更少，尖峰时段更稳。

2) 只用图像 vs 图像 + OCR

他们测试了“去掉 OCR，只用图像多模态分类”来省 Textract 成本，结果是：

总体准确率：93%（比 95% 低）
Unknown 准确率：50%（从 85% 掉到 50%）
成本：0.18 美分/份（更便宜）

我会把这看成一个典型的合规取舍题：

如果你的业务允许“错分了再说”，那可以压成本。
但在合同、保险、政策制度、审计材料这类场景里，Unknown 分得准非常关键，因为它决定了人工复核队列是否被污染。

所以他们最终选择了 OCR + 图像 的组合。你可以理解为：让模型同时看“长相”和“文字证据”。

3) 模型选择：准确率、Unknown、单份成本

在“第一页 + OCR + 图像”的最佳输入配置下，他们比较了不同模型：

Amazon Nova Pro：总体 95%，Unknown 85%，0.55 美分/份
Amazon Nova Lite：总体 95%，Unknown 50%，0.41 美分/份
Amazon Nova Premier：总体 96%，Unknown 90%，1.12 美分/份
Anthropic Claude Sonnet 4：总体 95%，Unknown 95%，1.21 美分/份

最后选 Nova Pro，理由很务实：总体准确率足够高、Unknown 也不错、成本控制得住。

给你的启发是：**别只盯“总体准确率”。**在合规与法务场景里，Unknown（或“需人工复核”）这个类的表现往往更重要。

把分类接进自动化工作流：从“识别”到“办事”

答案先给：分类真正的 ROI 来自后续自动化动作，而不是分类本身。

如果你正在规划 AI 自动化工作流，我建议把“文档类型”当成工作流的主触发条件（trigger）。一个可落地的路由图大概是这样：

合同（Contracts） → 进入合同审查队列 → 提取关键条款 → 触发审批/盖章流程
保险证明（Certificate of Insurance） → 校验有效期/承保范围 → 临期提醒 → 不合格自动退回补件
会议纪要（Minutes） → 归档到治理记录库 → 关键决议同步到任务系统
制度/政策（Policies & Resolutions / Rules） → 版本控制 → 全员分发 → 阅读确认留痕
Unknown → 进入人工复核 → 复核结果反哺训练/提示词迭代

这里有个我强烈建议你加上的合规设计：

记录每次分类的输入摘要、输出类别、置信度、模型版本、提示词版本、处理时间

这不是“额外工作”，这是未来应对审计、纠纷取证、模型回溯的底座。

小团队怎么抄作业：一套可执行的落地清单

答案先给：用最小样本集做评估，先把“第一页 + Unknown”跑通，你就会很快看到效果。

你不需要一开始就有 48M 文档。对多数中小企业（尤其法务/合规驱动的行业），我建议这样起步：

1) 先定义 8–15 个“够用”的类型

别贪多。类型越多，边界越模糊，Unknown 越难管理。把高频、合规敏感、可自动化收益高的先做。

2) 采样 200–500 份文档做评估集

Associa 用了 465 份，这是很好的量级：

覆盖不同来源（扫描件、系统导出、邮件附件）
覆盖不同质量（清晰/模糊、版式不同）
必须包含“故意很难分”的样本，来检验 Unknown

3) 先测“全篇 vs 第一页”

大概率你会得到跟他们类似的结果：第一页更稳、更便宜。即使你最后要用多页，也应该从第一页基线开始。

4) 为 Unknown 制定处理规则

Unknown 不该被当作垃圾桶，而要有明确 SOP：

谁复核、多久内完成
复核后是否允许新增类别
复核结果如何沉淀（提示词、规则、示例库）

5) 把分类结果直接接到流程里

如果分类结果只是写回字段，没有触发后续动作，你的收益会被大幅打折。把它接进：

合同审批/归档
合规留存与权限控制
临期提醒与补件
案件/审计取证的检索入口

你该把目标定在什么水平？

答案先给：在合规文档分类里，95% 左右的准确率已经能明显减少人工负担，但前提是 Unknown 机制健康。

Associa 的结果是：

95% 总体准确率
0.55 美分/份 平均分类成本

如果你每月处理 50,000 份文档，单纯推理成本约 275 美元量级（不含存储、队列、工程维护）。对多数公司来说，真正的大头是人工时间——分类从“每份 30–90 秒”变成“只复核少数 Unknown/低置信度”，节省是立竿见影的。

更关键的是：分类更一致，合规风险更低。

你更愿意让团队把时间花在合同条款谈判、风险评估、供应商管理上，而不是在文件夹里拖拽 PDF。

最后留个问题给你：如果从下周开始，你的合规团队不再“整理文件”，而是只处理被系统标记为 Unknown 的少数例外——你的工作流会变得更清晰，还是会暴露出以前被手工掩盖的流程问题？