用语音助手把来电变成可执行工作流:3秒内分流、多意图处理、智能转人工与审计分析,适用于医疗也适用于法务合规。

AI语音助手+自动化工作流:3秒内分流来电
医疗机构的电话量有多夸张?Clarus Care 每年处理 1500万通患者来电,服务 40+ 专科、16000+ 用户,并保持 99% 客户留存。这类数字背后通常不是“电话系统做得多好”,而是前台、护士站、财务团队把大量重复沟通硬扛下来:预约、处方续配、账单解释、检查结果追问、紧急症状判断……任何一个环节卡住,患者体验会先崩,临床协同也会被拖慢。
我一直认为,大多数组织在“上语音机器人”这件事上搞错了重点:真正的价值不是把 IVR 菜单换成更自然的对话,而是把对话变成可执行的工作流——能分流、能收集信息、能排队处理多意图、能在必要时带着上下文把人接进来,还能把每次交互变成可度量的数据资产。
这篇文章属于「人工智能在法律科技与合规」系列。你会看到一个医疗呼叫中心案例如何用 Amazon Connect + Lex + Bedrock(多模型)实现“3秒内响应、多意图处理、智能转人工与全链路分析”。更重要的是:我会把它翻译成小型企业也能照着做的“AI 语音助手与自动化工作流”落地方法,同时补上合规与风控(尤其是医疗和法务/合规场景都绕不开的隐私与审计)。
把电话当作工单入口:从IVR到多意图工作流
结论先说:最有效的呼叫自动化,是把每通电话拆成“意图队列”,像处理工单一样处理。
传统 IVR 的问题不在“按键麻烦”,而在它会强迫用户把现实问题拆碎、塞进菜单里。患者打电话常常是连着说:
- “我想改下周二的复诊时间,另外上次的账单我看不懂。”
- “能帮我续一下药吗?顺便问下化验结果什么时候出?”
菜单式 IVR 只能让对方选一个入口,剩下的要么丢失,要么靠人工补问。这就直接造成两类成本:
- 重复沟通成本(患者重复讲、员工重复记)
- 错分流成本(该紧急的没被及时升级,该自助的进了人工队列)
Clarus 的方向很明确:做一个能理解自然语言、能识别多个意图并排队处理的对话式系统,同时满足“后端处理+响应 < 3 秒”的体验要求。
对「法律科技与合规」读者来说,这个思路很熟:电话不是“聊天”,是合规记录与流程触发器。例如合规热线/举报电话、合同与付款相关咨询、客户身份核验、授权与同意(consent)确认,核心都是“说了什么、系统做了什么、基于什么规则做的”。
架构长什么样:Connect + Lex + Bedrock 的分工逻辑
结论先说:语音通道要稳定(SLA),对话要有状态(session),LLM 要按任务选模型(质量/延迟/成本)。
该方案的骨架是:
- Amazon Connect:承载语音/聊天入口与呼叫中心能力,并提供 99.99% 可用性 SLA
- Amazon Lex:负责转写(transcription)、对话状态与会话属性(session attributes)
- AWS Lambda:把对话编排成可执行逻辑(分类、抽取、调用系统、转人工)
- Amazon Bedrock:提供多模型调用能力(这里用到 Anthropic Claude 3.5 Sonnet 与 Amazon Nova 系列)
为什么这里强调“多模型”?因为在真实业务里:
- 有的任务需要“想得更细”(比如多意图识别、复杂语义判断)
- 有的任务只需要“快且稳”(比如从一句话里抽结构化字段、生成简短回复)
Clarus 的做法是把一次通话拆成多个 LLM 子任务,并为每个任务选合适模型:
- 意图提取:Claude 3.5 Sonnet(更强理解能力,能识别多意图)
- 信息收集与结构化抽取:Nova Pro(更快,偏结构化抽取)
- 回复生成:Nova Lite(更小更快,保证低延迟对话体验)
这套分工对小型企业尤其重要:你不需要“全程最强模型”,你需要的是把贵模型用在刀刃上,把大部分对话耗时留给低延迟、低成本模型。
关键能力一:3秒体验靠的是“分层提示词 + 状态机”
结论先说:想把语音对话做得像真人,靠的不是一条超长提示词,而是“分层提示词(prompt layering)+ 明确状态管理”。
这个系统的对话处理分成几段很清晰的链路:
1) 先做紧急程度判断(Urgency Assessment)
电话一接通,系统先把用户第一句话对照“紧急意图清单”,输出“urgent / non_urgent”。这是典型的“先分流再服务”。
对合规场景类比也成立:
- 举报热线:先判断是否涉及人身安全/重大违规
- 法务咨询:先判断是否触发诉讼/监管时限(deadline)
2) 多意图提取 + 去重(Intent Detection with Evidence)
Clarus 甚至把“用户原话引用”一起抽出来,作为该意图出现的证据,避免重复抽取同一意图,除非用户明确再次提出。
我很赞成这个设计,因为它天然支持:
- 可审计性:系统为什么判定为“账单问题”?引用的原话是什么?
- 可回放评估:事后抽样检查意图命中率和误判原因
3) 信息收集进入循环:缺什么问什么
系统会在每个意图上运行一个循环:
- 检查缺失字段(比如“姓名/生日/处方名/就诊医生/偏好时间段”)
- 用自然语言只问缺的部分
- 从用户回答里抽取字段,更新会话状态
- 直到字段齐全,再执行下一步(预约、创建消息、生成转人工摘要等)
这就是“自动化工作流”的核心:对话不是聊天,而是表单填充 + 规则推进。
关键能力二:可配置的“服务模型”让你能多租户扩展
结论先说:真正能规模化的是“服务模型(service model)”,不是代码。
Clarus 需要服务不同医疗机构/专科,字段与流程会有差异。如果每接一个客户就改一套代码,扩张会很痛。
他们用一个分层的服务模型来组织意图:
- 紧急层:先区分 urgent / non_urgent
- 服务层:预约、处方、账单等
- 医生/机构特定层:某些医生要求额外字段或特定分流规则
每个意图还可以附带“自定义指令”,在运行时注入到提示词里,实现配置驱动的差异化。
把它迁移到小型企业/法律合规场景,你可以这样理解:
- “服务模型”≈ 你的业务流程目录(比如:合同、发票、退款、投诉、数据删除请求 DSAR、合规举报)
- “字段清单”≈ 每个流程的最小必要信息(谁、何时、什么事项、凭证、授权)
- “自定义指令”≈ 不同行业/地区/客户的规则差异(比如不同合规话术、不同升级路径)
预约模块的启发:把LLM用在“理解偏好”,不是“随便聊天”
结论先说:LLM 最适合处理人类表达里的模糊偏好,然后把结果交给确定性系统(数据库/排班规则)做最终裁决。
Clarus 把“预约”做成独立模块,内部是一个清晰的状态机:
- 初始:告知门诊时间,询问偏好
- 收集偏好:抽取“具体时间/时间范围/相对日期(下周二)”
- 与排班数据库比对:有就确认,没有就给备选(±1天)
- 多次失败(默认 3 次)就升级到人工
我特别喜欢这一点:失败上限是很现实的产品决策。自动化不是为了证明模型很聪明,而是为了让用户尽快完成任务;超过次数就转人工,反而体验更好。
这套思路迁移到合同/合规也成立:
- LLM 负责把口头描述变成结构化需求(“我想尽快签”“希望下周前完成”“对方要求预付款”)
- 工作流系统负责:路由给谁、用哪个模板、走哪个审批、是否触发合规审查
合规与风控:医疗方案对法务/合规更有参考价值
结论先说:能上线到生产的语音助手,一定把“隐私、审计、评估”当作一等公民。
医疗电话天然涉及敏感信息(PII/PHI)。而在法律科技与合规领域,同样高频出现:身份信息、合同金额、争议事实、举报线索、监管材料。你需要一开始就把下面三件事纳入设计:
1) PII/PHI 防护与内容控制
Bedrock 提供 Guardrails(内容与敏感信息防护)一类能力,可用于限制模型输出、过滤不当内容、降低泄露风险。即使你不在 AWS 上,也要有等价机制:
- 识别并掩码敏感字段
- 限制模型“编造”政策/法律建议(必要时强制引用知识库或转人工)
2) 可审计的日志与分析管道
他们搭建了对话日志分析与仪表盘,复用可重用资产。对合规团队来说,仪表盘不只是运营指标,更是:
- 证据链:什么时候说了什么,系统做了什么动作
- 质量抽检:误分流率、转人工原因、遗漏字段占比
- 风险定位:哪些意图最容易触发合规风险
3) 可度量的评估(Evaluation)
Bedrock 的 Evaluations 提供自动化/人工评估框架。无论用什么平台,你都应该建立自己的评估集:
- 多意图识别准确率
- 紧急判断漏判率(这项要“极低”)
- 平均响应延迟(目标 <3秒)
- 转人工后“上下文完整度”(人工是否还要重复问)
我更愿意用一句话概括:没有评估与审计的语音助手,只能做演示,不能做业务系统。
小企业怎么照抄这个思路:一份可落地的清单
结论先说:先从“分流+字段收集+转人工摘要”做起,别一开始就追求全自动闭环。
如果你是小型律所、合规咨询团队、或者任何需要处理大量来电/聊天的服务型公司,我建议按这个顺序搭:
- 先定义服务模型(10-30个意图足够)
- 例如:合同起草、合同审查、付款条款咨询、发票争议、数据删除请求、举报与投诉
- 为每个意图写“最小字段表”
- 谁(身份/客户号)、什么事(问题类型)、关键期限(deadline)、证据材料(文件/截图)、联系方式
- 设置升级规则
- 涉及诉讼/监管时限、金额阈值、投诉升级、情绪激烈、或用户明确要求人工
- 把“转人工”做成产品能力
- 自动生成摘要:已识别意图、已收集字段、用户原话引用
- 上线后只盯4个指标
- 自动解决率、平均响应时间、转人工率、误分流/漏判样本
当这套稳定运行,再考虑更深的自动化:对接 CRM/工单系统、知识库检索(RAG)、甚至语音到语音的实时对话(例如 Nova Sonic 这类 speech-to-speech)。
下一步:把语音助手变成你的“合规可控自动化入口”
Clarus Care 这个案例最值得学的,不是“用了哪个大模型”,而是它把电话交互设计成了可扩展的自动化工作流:多意图队列、字段循环收集、可配置服务模型、智能转人工、以及可审计的数据分析。
对「人工智能在法律科技与合规」这个系列来说,这正是我们要的方向:让 AI 在入口处把信息收齐、把风险分级、把证据留住,然后把任务交给最合适的人或系统。把“接电话”变成“推动流程”,你会明显感受到团队负担下降、响应速度上升,而且合规更可控。
如果你正打算在自己的业务里上 AI 语音助手,我建议从一个问题开始思考:你的来电里,哪些内容可以被稳定地结构化成字段?哪些情形必须立刻升级到人工?