人工智能在通信与 5G/6G•2026年2月11日•By 3L3C

用 Swann 案例拆解生成式 AI 如何为 IoT 与业务工作流“降噪”：多模型分层、预过滤、p95 监控，让通知更准、成本更稳。

Amazon BedrockIoT告警治理多模型策略自动化工作流AI语音助手AIOps5G/6G智能运维

Featured image for 用生成式 AI 降噪：IoT 告警到智能工作流

用生成式 AI 降噪：IoT 告警到智能工作流

每天 20 条摄像头通知，最后真正有用的可能只有 1 条。更糟的是：当“噪声”长期轰炸用户时，人会本能地关闭提醒——真正的风险就被埋掉了。Swann 在 11.74 million（1174 万）联网安防设备上遇到的“告警疲劳”，其实也是很多小企业在客服、运维、销售线索分配里天天上演的同一件事：信息太多，判断太少，自动化反而让人更忙。

这篇文章把 Swann 基于 Amazon Bedrock 的案例，重新放到“AI 语音助手与自动化工作流”的视角里讲清楚：你不需要先做一个“全知全能的 AI”，你需要的是一套分层、可控、可监控的自动化决策链路，把重复判断交给机器，把少数关键事件准确推到人面前。

同时，它也属于「人工智能在通信与 5G/6G」系列的一部分：当设备数量上到百万级，网络链路更复杂（5G/6G、边缘节点、跨区域数据合规），低时延、可扩展的智能运维不再是锦上添花，而是体验与成本能否成立的底线。

告警疲劳不是“通知太多”，而是“上下文太少”

最直接的结论：要降低告警数量，靠“阈值调高一点”没用；必须让系统理解上下文。 Swann 之前的检测逻辑基本只能区分“人/宠物”，但无法知道“这个人是快递员还是可疑闯入者”，也无法让用户定义“我认为重要的是什么”。结果就是大量无关事件（车辆经过、树枝晃动、宠物活动）不断触发。

这件事对小企业的映射非常清晰：

客服系统把所有来电都当成同等级“工单”，结果值班人员被低价值咨询淹没。
销售线索系统把所有表单提交都推给同一组人，结果高意向客户被延迟响应。
运维告警系统对每次 CPU 抖动都报警，结果真正的链路故障没人接。

问题不在“有没有自动化”，而在“自动化有没有判断力”。 生成式 AI（尤其是多模态模型）擅长的正是把碎片化信号整理成“可执行的判断”。

Swann 的方法：多模型分层 + 业务预过滤，先省钱再提准

Swann 这个案例之所以值得抄作业，不是因为它用了某个模型，而是因为它把“架构和成本”当成一等公民来设计。

他们每月大约要做 275 million（2.75 亿）次推理。如果所有请求都用高能力模型处理，成本会爆炸、延迟也会失控。Swann 的关键动作有两个：

1) 业务预过滤：先把 65% 的垃圾挡在门外

他们在调用生成式 AI 之前，做了三层“便宜的判断”：

运动检测与区域规则（zone-based analysis）
重复帧消除（duplicate frame elimination）
在 GPU EC2 上跑的自定义预过滤模型，直接剔除树枝晃动、车辆经过等误触发

数据很硬：他们把调用频率从 17,000 RPM 降到 2,000 RPM（减少 88%）。

把这一步翻译成业务工作流语言：

生成式 AI 不应该接管所有请求，它应该接管“通过基础规则筛选后仍需要判断的那一小部分”。

2) 多模型路由：让“便宜模型”干体力活，“强模型”做难题

Swann 用 Amazon Bedrock 做统一入口，通过不同模型承担不同复杂度任务：

Nova Lite（87% 请求）：高吞吐、低成本、做常规筛查
Nova Pro（8%）：做威胁验证，提升精度
Claude Haiku（2%）：极低时延，支撑“Notify Me When”这类强时效需求
Claude Sonnet（3%）：处理复杂边界案例，需要更强推理

结果同样硬：整体准确率达到 95%，同时把“全部用高阶模型”的预估月成本从 $2.1 million 降到 $6 thousand（降低 99.7%）。

我很认同这里的立场：省钱不是靠选一个更便宜的模型，而是靠把请求分层。

一套可复制的架构：从 IoT 告警到语音助手工作流

Swann 的云上链路大致是：设备接入 → 事件总线与队列 → 视频抽帧与过滤 → Lambda 调 Bedrock → 动态通知。

你不做安防，也能照着搭一套“上下文自动化”流水线，尤其适合小企业把语音助手、工单、线索、运维告警串起来。

事件驱动骨架：别让系统靠“轮询”和“人工转发”运转

Swann 使用的组合非常典型：

AWS IoT Core：设备连接与消息
EventBridge + SQS：事件路由与削峰填谷（高峰期摄像头同时触发）
S3：存储视频帧（或你的业务里：录音、图片、附件）
Lambda：无服务器执行，按量计费
Cognito：用户认证与授权
Bedrock：多模型统一调用

对于“AI 语音助手与自动化工作流”，把它替换成下面这类输入也成立：

语音通话录音（呼叫中心）
WhatsApp/企业微信对话（客服）
现场照片（巡检/质检）
设备遥测（智能运维）

关键是：让每个事件进入同一条“判断管道”，输出标准化的结构化结果，再由工作流分发给人或系统。

把输出做成机器可读：别让后续系统去猜

Swann 的提示词优化很实用：用结构化键值对替代长文本，例如：

threat:LOW|type:person|action:delivery

他们把单次请求 tokens 从 150 降到 18（减少 88%），同时降低成本和时延。

把这招用在语音助手工作流里，效果也很直接。比如电话摘要别输出“自然语言作文”，而是输出：

intent:refund|sentiment:negative|urgency:high|next_step:call_back|owner:cs_team

后续自动分配、SLA 计时、提醒策略都能立刻落地。

面向 5G/6G 与智能运维：你需要监控的是“p95”，不是平均值

在「人工智能在通信与 5G/6G」语境下，最容易被忽略的一点是：网络与推理链路的尾部延迟（tail latency）决定体验。

Swann 把系统做到 p95 < 300 ms，并强调监控 p50/p95/p99，而不是看平均值。原因很现实：平均 200ms 可能掩盖了 5% 请求 2 秒以上——对安防、对语音助手实时交互、对智能运维的告警闭环都是灾难。

如果你在做面向 5G/6G 的智能运维（AIOps），建议从一开始就把这些指标写进仪表盘：

推理时延：p50 / p95 / p99
令牌消耗：tokens per request（直接对应成本）
单次推理成本：cost per inference
准确率：按业务定义（误报率/漏报率/命中率）
限流与重试：throttling events、队列堆积长度

一句话：你优化的不是“模型有多聪明”，而是“系统在最差时刻还能不能稳”。

小企业怎么落地：从“告警”做起，而不是从“全自动”做起

如果你正在考虑把生成式 AI 引入语音助手或自动化工作流，我建议照这个顺序推进，最快产生业务价值。

1) 先选一个可量化的“降噪指标”

Swann 的指标很清楚：告警量下降、相关性提升、满意度提升。你的业务也要一样具体：

客服：每日工单量下降 20%，但一次解决率不下降
销售：高意向线索响应时间从 2 小时降到 10 分钟
运维：误报率降低 50%，但重大故障漏报为 0

2) 先做预过滤与分层路由，再谈“更大模型”

可复制的分层策略：

规则/轻量模型：快速筛掉明显无关事件
便宜多模态模型：批量理解与分类
强推理模型：只处理升级事件（疑似风险、用户自定义条件、边界案例）

这也是控制预算的唯一靠谱办法。

3) 把提示词当成“版本化的产品资产”管理

Swann 会给 prompt 打版本并做小流量 A/B（5%–10%）验证。你也应该这样做，并记录三组元数据：

准确率（或误报/漏报）
平均 tokens（成本）
p95 时延（体验）

只要你做到了这三件事，生成式 AI 就不再是“玄学”，而是工程。

观点很明确：没有 prompt 版本管理的 AI 自动化，迟早变成不可控的成本黑洞。

从 Swann 学到的真正经验：自动化要“懂情境”才省人

Swann 的系统把告警量降低 25%，通知相关性提升 89%，满意度提升 3%。这些数字背后不是“AI 更强了”，而是“工作流更聪明了”：先过滤、再分层、只把关键事件推给人。

如果你的目标是用 AI 语音助手与自动化工作流带来线索与转化（LEADS），最值得借鉴的是这一点：让 AI 承担“判断与分流”，让团队把精力花在真正需要沟通与决策的地方。

接下来一个更值得思考的问题是：当 5G/6G 把终端和边缘节点继续推向“超密集连接”，你要把多少判断放在云端，多少放在边缘？你的系统在断网、限流、跨区合规时，是否还能“优雅降级”而不误报、不漏报？这会决定你能否把智能自动化从试点做成常态。