人工智能在法律科技与合规•2026年2月3日•By 3L3C

用语音助手把来电变成可执行工作流：3秒内分流、多意图处理、智能转人工与审计分析，适用于医疗也适用于法务合规。

AI语音助手呼叫中心自动化多意图识别合规与审计对话式AI工作流设计

Featured image for AI语音助手+自动化工作流：3秒内分流来电

AI语音助手+自动化工作流：3秒内分流来电

医疗机构的电话量有多夸张？Clarus Care 每年处理 1500万通患者来电，服务 40+ 专科、16000+ 用户，并保持 99% 客户留存。这类数字背后通常不是“电话系统做得多好”，而是前台、护士站、财务团队把大量重复沟通硬扛下来：预约、处方续配、账单解释、检查结果追问、紧急症状判断……任何一个环节卡住，患者体验会先崩，临床协同也会被拖慢。

我一直认为，大多数组织在“上语音机器人”这件事上搞错了重点：真正的价值不是把 IVR 菜单换成更自然的对话，而是把对话变成可执行的工作流——能分流、能收集信息、能排队处理多意图、能在必要时带着上下文把人接进来，还能把每次交互变成可度量的数据资产。

这篇文章属于「人工智能在法律科技与合规」系列。你会看到一个医疗呼叫中心案例如何用 Amazon Connect + Lex + Bedrock（多模型）实现“3秒内响应、多意图处理、智能转人工与全链路分析”。更重要的是：我会把它翻译成小型企业也能照着做的“AI 语音助手与自动化工作流”落地方法，同时补上合规与风控（尤其是医疗和法务/合规场景都绕不开的隐私与审计）。

把电话当作工单入口：从IVR到多意图工作流

结论先说：最有效的呼叫自动化，是把每通电话拆成“意图队列”，像处理工单一样处理。

传统 IVR 的问题不在“按键麻烦”，而在它会强迫用户把现实问题拆碎、塞进菜单里。患者打电话常常是连着说：

“我想改下周二的复诊时间，另外上次的账单我看不懂。”
“能帮我续一下药吗？顺便问下化验结果什么时候出？”

菜单式 IVR 只能让对方选一个入口，剩下的要么丢失，要么靠人工补问。这就直接造成两类成本：

重复沟通成本（患者重复讲、员工重复记）
错分流成本（该紧急的没被及时升级，该自助的进了人工队列）

Clarus 的方向很明确：做一个能理解自然语言、能识别多个意图并排队处理的对话式系统，同时满足“后端处理+响应 < 3 秒”的体验要求。

对「法律科技与合规」读者来说，这个思路很熟：电话不是“聊天”，是合规记录与流程触发器。例如合规热线/举报电话、合同与付款相关咨询、客户身份核验、授权与同意（consent）确认，核心都是“说了什么、系统做了什么、基于什么规则做的”。

架构长什么样：Connect + Lex + Bedrock 的分工逻辑

结论先说：语音通道要稳定（SLA），对话要有状态（session），LLM 要按任务选模型（质量/延迟/成本）。

该方案的骨架是：

Amazon Connect：承载语音/聊天入口与呼叫中心能力，并提供 99.99% 可用性 SLA
Amazon Lex：负责转写（transcription）、对话状态与会话属性（session attributes）
AWS Lambda：把对话编排成可执行逻辑（分类、抽取、调用系统、转人工）
Amazon Bedrock：提供多模型调用能力（这里用到 Anthropic Claude 3.5 Sonnet 与 Amazon Nova 系列）

为什么这里强调“多模型”？因为在真实业务里：

有的任务需要“想得更细”（比如多意图识别、复杂语义判断）
有的任务只需要“快且稳”（比如从一句话里抽结构化字段、生成简短回复）

Clarus 的做法是把一次通话拆成多个 LLM 子任务，并为每个任务选合适模型：

意图提取：Claude 3.5 Sonnet（更强理解能力，能识别多意图）
信息收集与结构化抽取：Nova Pro（更快，偏结构化抽取）
回复生成：Nova Lite（更小更快，保证低延迟对话体验）

这套分工对小型企业尤其重要：你不需要“全程最强模型”，你需要的是把贵模型用在刀刃上，把大部分对话耗时留给低延迟、低成本模型。

关键能力一：3秒体验靠的是“分层提示词 + 状态机”

结论先说：想把语音对话做得像真人，靠的不是一条超长提示词，而是“分层提示词（prompt layering）+ 明确状态管理”。

这个系统的对话处理分成几段很清晰的链路：

1) 先做紧急程度判断（Urgency Assessment）

电话一接通，系统先把用户第一句话对照“紧急意图清单”，输出“urgent / non_urgent”。这是典型的“先分流再服务”。

对合规场景类比也成立：

举报热线：先判断是否涉及人身安全/重大违规
法务咨询：先判断是否触发诉讼/监管时限（deadline）

2) 多意图提取 + 去重（Intent Detection with Evidence）

Clarus 甚至把“用户原话引用”一起抽出来，作为该意图出现的证据，避免重复抽取同一意图，除非用户明确再次提出。

我很赞成这个设计，因为它天然支持：

可审计性：系统为什么判定为“账单问题”？引用的原话是什么？
可回放评估：事后抽样检查意图命中率和误判原因

3) 信息收集进入循环：缺什么问什么

系统会在每个意图上运行一个循环：

检查缺失字段（比如“姓名/生日/处方名/就诊医生/偏好时间段”）
用自然语言只问缺的部分
从用户回答里抽取字段，更新会话状态
直到字段齐全，再执行下一步（预约、创建消息、生成转人工摘要等）

这就是“自动化工作流”的核心：对话不是聊天，而是表单填充 + 规则推进。

关键能力二：可配置的“服务模型”让你能多租户扩展

结论先说：真正能规模化的是“服务模型（service model）”，不是代码。

Clarus 需要服务不同医疗机构/专科，字段与流程会有差异。如果每接一个客户就改一套代码，扩张会很痛。

他们用一个分层的服务模型来组织意图：

紧急层：先区分 urgent / non_urgent
服务层：预约、处方、账单等
医生/机构特定层：某些医生要求额外字段或特定分流规则

每个意图还可以附带“自定义指令”，在运行时注入到提示词里，实现配置驱动的差异化。

把它迁移到小型企业/法律合规场景，你可以这样理解：

“服务模型”≈ 你的业务流程目录（比如：合同、发票、退款、投诉、数据删除请求 DSAR、合规举报）
“字段清单”≈ 每个流程的最小必要信息（谁、何时、什么事项、凭证、授权）
“自定义指令”≈ 不同行业/地区/客户的规则差异（比如不同合规话术、不同升级路径）

预约模块的启发：把LLM用在“理解偏好”，不是“随便聊天”

结论先说：LLM 最适合处理人类表达里的模糊偏好，然后把结果交给确定性系统（数据库/排班规则）做最终裁决。

Clarus 把“预约”做成独立模块，内部是一个清晰的状态机：

初始：告知门诊时间，询问偏好
收集偏好：抽取“具体时间/时间范围/相对日期（下周二）”
与排班数据库比对：有就确认，没有就给备选（±1天）
多次失败（默认 3 次）就升级到人工

我特别喜欢这一点：失败上限是很现实的产品决策。自动化不是为了证明模型很聪明，而是为了让用户尽快完成任务；超过次数就转人工，反而体验更好。

这套思路迁移到合同/合规也成立：

LLM 负责把口头描述变成结构化需求（“我想尽快签”“希望下周前完成”“对方要求预付款”）
工作流系统负责：路由给谁、用哪个模板、走哪个审批、是否触发合规审查

合规与风控：医疗方案对法务/合规更有参考价值

结论先说：能上线到生产的语音助手，一定把“隐私、审计、评估”当作一等公民。

医疗电话天然涉及敏感信息（PII/PHI）。而在法律科技与合规领域，同样高频出现：身份信息、合同金额、争议事实、举报线索、监管材料。你需要一开始就把下面三件事纳入设计：

1) PII/PHI 防护与内容控制

Bedrock 提供 Guardrails（内容与敏感信息防护）一类能力，可用于限制模型输出、过滤不当内容、降低泄露风险。即使你不在 AWS 上，也要有等价机制：

识别并掩码敏感字段
限制模型“编造”政策/法律建议（必要时强制引用知识库或转人工）

2) 可审计的日志与分析管道

他们搭建了对话日志分析与仪表盘，复用可重用资产。对合规团队来说，仪表盘不只是运营指标，更是：

证据链：什么时候说了什么，系统做了什么动作
质量抽检：误分流率、转人工原因、遗漏字段占比
风险定位：哪些意图最容易触发合规风险

3) 可度量的评估（Evaluation）

Bedrock 的 Evaluations 提供自动化/人工评估框架。无论用什么平台，你都应该建立自己的评估集：

多意图识别准确率
紧急判断漏判率（这项要“极低”）
平均响应延迟（目标 <3秒）
转人工后“上下文完整度”（人工是否还要重复问）

我更愿意用一句话概括：没有评估与审计的语音助手，只能做演示，不能做业务系统。

小企业怎么照抄这个思路：一份可落地的清单

结论先说：先从“分流+字段收集+转人工摘要”做起，别一开始就追求全自动闭环。

如果你是小型律所、合规咨询团队、或者任何需要处理大量来电/聊天的服务型公司，我建议按这个顺序搭：

先定义服务模型（10-30个意图足够）
- 例如：合同起草、合同审查、付款条款咨询、发票争议、数据删除请求、举报与投诉
为每个意图写“最小字段表”
- 谁（身份/客户号）、什么事（问题类型）、关键期限（deadline）、证据材料（文件/截图）、联系方式
设置升级规则
- 涉及诉讼/监管时限、金额阈值、投诉升级、情绪激烈、或用户明确要求人工
把“转人工”做成产品能力
- 自动生成摘要：已识别意图、已收集字段、用户原话引用
上线后只盯4个指标
- 自动解决率、平均响应时间、转人工率、误分流/漏判样本

当这套稳定运行，再考虑更深的自动化：对接 CRM/工单系统、知识库检索（RAG）、甚至语音到语音的实时对话（例如 Nova Sonic 这类 speech-to-speech）。

下一步：把语音助手变成你的“合规可控自动化入口”

Clarus Care 这个案例最值得学的，不是“用了哪个大模型”，而是它把电话交互设计成了可扩展的自动化工作流：多意图队列、字段循环收集、可配置服务模型、智能转人工、以及可审计的数据分析。

对「人工智能在法律科技与合规」这个系列来说，这正是我们要的方向：让 AI 在入口处把信息收齐、把风险分级、把证据留住，然后把任务交给最合适的人或系统。把“接电话”变成“推动流程”，你会明显感受到团队负担下降、响应速度上升，而且合规更可控。

如果你正打算在自己的业务里上 AI 语音助手，我建议从一个问题开始思考：你的来电里，哪些内容可以被稳定地结构化成字段？哪些情形必须立刻升级到人工？