别只看WER。多语言语音识别的文本清洗可能让指标虚低,影响字幕、审核与自动化工单。给你3个可执行测试法。

语音转文字别只看WER:多语言评测的坑与解法
把语音识别接进自动化工作流之后,最贵的往往不是模型费用,而是**你以为“识别准确”**带来的连锁错误:工单被分错队列、内容审核误判、节目字幕错到离谱、客服质检指标被“虚假优化”。
Deepgram 团队在复盘 OpenAI Whisper 的论文指标时,发现了一个典型的“指标看起来很好,但实际体验并不一致”的原因:评测前的文本清洗(text normalization)把一批南亚/东南亚语言的文字结构“清洗坏了”,让 WER(Word Error Rate,词错误率)看起来被压低。受影响的不止泰米尔语(Tamil),还包括印地语、孟加拉语等一系列使用婆罗米系文字(Brahmic scripts)的语言——覆盖超过 10 亿使用者。
这篇文章放在「人工智能在媒体与内容产业」系列里讲,原因很简单:媒体内容生产与分发越来越依赖AI 语音助手、自动字幕、语音检索、内容审核与推荐。一旦评测指标失真,你做的不是“智能创作”,而是“智能返工”。
这次“WER 看起来更低”的核心问题是什么?
答案先说:问题出在“清洗规则把文字里的元音符号当成标点/符号删掉了”,导致很多语言的词被打碎成一堆辅音片段,进而让 WER 变得不再是“词错误率”。
Whisper 论文里提到,为了减少“非语义差异”(大小写、标点、括号、缩写格式等)对 WER 的影响,会在计算 WER 前进行标准化处理。他们的规则包括一条关键步骤:
将 Unicode 类别以
M、S、P开头的字符(标记、符号、标点)替换为空格。
对英语来说,这听起来像“去掉标点”。但对许多婆罗米系文字来说,元音的“附标/变体”在 Unicode 中常被归类为 M(Mark,标记)。比如泰米尔语里,元音可以以“独立字母”出现,也可以作为附着在辅音上的符号(类似附标)。这一步一旦把这些附标替换成空格,就会发生两件事:
- 大量元音被删除,词形被破坏。
- 空格变多,原本一个词被拆成多个“词”。
Deepgram 给出的示例非常直观:一句正常泰米尔语经过“标准化”后,被拆成了很多片段式字符序列。这样算出来的“WER”会被系统性压低——Deepgram 的估算是大约低 30%。
对企业来说,这意味着:
- 你在选型时看到的“公开 WER”可能并不能代表真实业务效果。
- 你的多语言语音助手或字幕系统,可能在某些语言上暗中更差,但指标报表却很漂亮。
为什么 WER 在多语言场景里特别容易“被玩坏”?
答案先说:WER 不是一个单一、客观、跨语言可直接对比的指标;它是一组“取决于清洗规则”的指标。
WER 的定义很朴素:把模型转写结果变成参考文本,需要多少次替换(substitution)、删除(deletion)、插入(insertion),再除以参考文本词数。
问题在于,WER 有两个天然缺陷:
1) WER 不懂“人类觉得差不差”
把 “bookshelf” 识别成 “book shelf”,人类可能觉得差不多,但 WER 会多算错误。
2) “清洗”会改变你在评测什么
为了减轻格式差异带来的惩罚,大家都会做 text normalization:
- 全部小写
- 去掉标点
- 统一数字格式
- 处理缩写
这些都合理。但如果清洗规则对某些书写系统不友好,就会从“消除格式差异”变成“破坏文字结构”。这次事件的关键教训是:
同一套清洗规则,不适合所有语言。
而且在媒体与内容产业里,多语言字幕、跨地区内容分发、UGC 审核、语音搜索经常是同一条工作流同时服务多种语言。一旦评测基线不一致,自动化就会把错误稳定地规模化。
对 AI 语音助手与自动化工作流的真实影响
答案先说:识别错误不是“看起来不美观”,而是会在自动化链路里被放大成业务风险与成本。
把语音识别当作一个工作流的“入口”来看,它后面往往接着:
- 内容标签(topic tagging)
- 敏感词与合规审核
- CRM/工单系统字段填充
- 搜索索引与推荐
- 摘要、要点提取与二次创作
当转写质量下降,常见后果不是“多几个错别字”,而是:
1) 内容生产:字幕与脚本返工激增
如果泰米尔语/印地语这类语言的元音被系统性破坏,字幕团队会发现:
- 人工校对时间明显增加
- 关键专有名词难以保留(人名、地名、品牌)
- 时间轴对齐后仍难读,影响发布节奏
2) 内容审核:误判变多,且难复盘
审核模型通常吃的是文本。如果文本被“拆词”,敏感词匹配与语义分类都会被打乱:
- 漏审:词被拆碎后,规则/模型没匹配到
- 误杀:一些无害片段被误触发
- 难解释:你回看日志,只看到“标准化后文本”,定位不到问题源头
3) 自动化工单:字段错误会变成 KPI 问题
举个很现实的例子:语音客服系统把用户诉求转写后自动打标签并路由。如果某些语言的识别在评测时“虚低 WER”,上线后你会看到:
- 路由错误导致平均处理时长变长
- 复拨率上升
- 质检抽检通过率下降
这些成本通常远高于模型单价。
3 个企业可执行的“真实准确率”测试方法
答案先说:别迷信公开 WER;用你的数据、你的语言、你的工作流做端到端测试。
下面这三步,我建议中小团队也要做(不会很贵,但能避坑)。
1) 用“原始文本 + 业务清洗”双轨评测
不要只看供应商的标准化 WER。你至少要同时算两套:
- Raw WER:尽量少清洗(只做必要的空白/编码修正)
- Workflow WER:按你实际工作流会做的清洗(比如去标点、数字归一、专有名词表替换)
如果两者差距特别大(比如 20%-50% 的变化),这不是“模型突然变好”,而是你在评测另一个任务。
2) 加一组“下游任务指标”做护栏
媒体与内容产业里,真正重要的是下游效果。建议至少选一个与你的目标直接相关的指标:
- 字幕场景:人工校对分钟数/每小时音频、关键术语保留率
- 审核场景:误杀率、漏审率(用抽样标注)
- 检索推荐:查询命中率、点击率(CTR)变化、站内搜索零结果率
- 工单自动化:路由准确率、首响/首解时长、复拨率
一句话:语音识别的“准”,必须能在业务指标上站得住。
3) 对多语言做“文字系统级别”的测试集分层
如果你服务的地区覆盖南亚/东南亚,测试集别只按“语言名称”分;要按书写系统/Unicode 特性做分层:
- 婆罗米系(Tamil、Hindi、Bengali 等)
- 拉丁字母系(英语、印尼语、越南语等)
- 夹杂双语/混码(英语夹本地语言,媒体口播很常见)
这样你能更快识别:问题是模型、清洗、还是后处理。
选型与落地建议:把“评测透明度”当作硬指标
答案先说:语音模型选型时,准确率不是一个数字,而是一套可复现的方法。方法越透明,你越能把风险留在上线前。
结合 Deepgram 这次指出的问题,我更认可的工程化做法是:
- 评测脚本可复现:给出完整 normalization、tokenization、WER 计算方式。
- 语言专家/母语者参与:至少在数据抽检与错误类型分析阶段要有母语者。
- 错误分析按“可修复性”分类:
- 专有名词(可用热词/词表)
- 数字/单位(可用规则)
- 口音/噪声(可用定制模型/域适配)
- 书写系统相关(必须修 normalization 或 tokenizer)
- 上线后监控“漂移”:媒体内容的题材与说话方式会随热点变化(尤其 2026 年初各平台短视频与播客继续增长),要监控新词、外来词、混码比例上升带来的准确率变化。
这里有个很实际的判断标准:
如果供应商只给你一个 WER 数字,却说不清楚清洗和评测细节,那这个数字对你的自动化工作流几乎没用。
给媒体与内容团队的一句话
语音识别正在变成内容管线的“基础设施”:自动字幕、语音检索、智能创作、内容审核、推荐系统都在吃它的输出。Deepgram 这次对 Whisper 的研究提醒我们:指标可能比模型更会骗人,尤其在多语言场景。
下一步很明确:用你的真实语料(你的主持人口音、你的节目类型、你的地区语言)做小规模试点,把“转写准确率 + 下游业务指标”一起拉通,再决定是否扩大到 AI 语音助手与自动化工作流的核心链路。
如果你的团队正在做多语言字幕、语音内容审核或语音驱动的内容自动化,我建议你回头看一眼:你现在的 WER,是在评测“词”,还是在评测“被清洗后的碎片”?当你把它接进生产系统时,成本会用最直接的方式回答你。