人工智能在媒体与内容产业•2026年2月12日•By 3L3C

别只看WER。多语言语音识别的文本清洗可能让指标虚低，影响字幕、审核与自动化工单。给你3个可执行测试法。

语音识别WhisperWER评测多语言媒体自动化内容审核字幕制作

Featured image for 语音转文字别只看WER：多语言评测的坑与解法

语音转文字别只看WER：多语言评测的坑与解法

把语音识别接进自动化工作流之后，最贵的往往不是模型费用，而是**你以为“识别准确”**带来的连锁错误：工单被分错队列、内容审核误判、节目字幕错到离谱、客服质检指标被“虚假优化”。

Deepgram 团队在复盘 OpenAI Whisper 的论文指标时，发现了一个典型的“指标看起来很好，但实际体验并不一致”的原因：评测前的文本清洗（text normalization）把一批南亚/东南亚语言的文字结构“清洗坏了”，让 WER（Word Error Rate，词错误率）看起来被压低。受影响的不止泰米尔语（Tamil），还包括印地语、孟加拉语等一系列使用婆罗米系文字（Brahmic scripts）的语言——覆盖超过 10 亿使用者。

这篇文章放在「人工智能在媒体与内容产业」系列里讲，原因很简单：媒体内容生产与分发越来越依赖AI 语音助手、自动字幕、语音检索、内容审核与推荐。一旦评测指标失真，你做的不是“智能创作”，而是“智能返工”。

这次“WER 看起来更低”的核心问题是什么？

答案先说：问题出在“清洗规则把文字里的元音符号当成标点/符号删掉了”，导致很多语言的词被打碎成一堆辅音片段，进而让 WER 变得不再是“词错误率”。

Whisper 论文里提到，为了减少“非语义差异”（大小写、标点、括号、缩写格式等）对 WER 的影响，会在计算 WER 前进行标准化处理。他们的规则包括一条关键步骤：

将 Unicode 类别以 M、S、P 开头的字符（标记、符号、标点）替换为空格。

对英语来说，这听起来像“去掉标点”。但对许多婆罗米系文字来说，元音的“附标/变体”在 Unicode 中常被归类为 M（Mark，标记）。比如泰米尔语里，元音可以以“独立字母”出现，也可以作为附着在辅音上的符号（类似附标）。这一步一旦把这些附标替换成空格，就会发生两件事：

大量元音被删除，词形被破坏。
空格变多，原本一个词被拆成多个“词”。

Deepgram 给出的示例非常直观：一句正常泰米尔语经过“标准化”后，被拆成了很多片段式字符序列。这样算出来的“WER”会被系统性压低——Deepgram 的估算是大约低 30%。

对企业来说，这意味着：

你在选型时看到的“公开 WER”可能并不能代表真实业务效果。
你的多语言语音助手或字幕系统，可能在某些语言上暗中更差，但指标报表却很漂亮。

为什么 WER 在多语言场景里特别容易“被玩坏”？

答案先说：WER 不是一个单一、客观、跨语言可直接对比的指标；它是一组“取决于清洗规则”的指标。

WER 的定义很朴素：把模型转写结果变成参考文本，需要多少次替换（substitution）、删除（deletion）、插入（insertion），再除以参考文本词数。

问题在于，WER 有两个天然缺陷：

1) WER 不懂“人类觉得差不差”

把 “bookshelf” 识别成 “book shelf”，人类可能觉得差不多，但 WER 会多算错误。

2) “清洗”会改变你在评测什么

为了减轻格式差异带来的惩罚，大家都会做 text normalization：

全部小写
去掉标点
统一数字格式
处理缩写

这些都合理。但如果清洗规则对某些书写系统不友好，就会从“消除格式差异”变成“破坏文字结构”。这次事件的关键教训是：

同一套清洗规则，不适合所有语言。

而且在媒体与内容产业里，多语言字幕、跨地区内容分发、UGC 审核、语音搜索经常是同一条工作流同时服务多种语言。一旦评测基线不一致，自动化就会把错误稳定地规模化。

对 AI 语音助手与自动化工作流的真实影响

答案先说：识别错误不是“看起来不美观”，而是会在自动化链路里被放大成业务风险与成本。

把语音识别当作一个工作流的“入口”来看，它后面往往接着：

内容标签（topic tagging）
敏感词与合规审核
CRM/工单系统字段填充
搜索索引与推荐
摘要、要点提取与二次创作

当转写质量下降，常见后果不是“多几个错别字”，而是：

1) 内容生产：字幕与脚本返工激增

如果泰米尔语/印地语这类语言的元音被系统性破坏，字幕团队会发现：

人工校对时间明显增加
关键专有名词难以保留（人名、地名、品牌）
时间轴对齐后仍难读，影响发布节奏

2) 内容审核：误判变多，且难复盘

审核模型通常吃的是文本。如果文本被“拆词”，敏感词匹配与语义分类都会被打乱：

漏审：词被拆碎后，规则/模型没匹配到
误杀：一些无害片段被误触发
难解释：你回看日志，只看到“标准化后文本”，定位不到问题源头

3) 自动化工单：字段错误会变成 KPI 问题

举个很现实的例子：语音客服系统把用户诉求转写后自动打标签并路由。如果某些语言的识别在评测时“虚低 WER”，上线后你会看到：

路由错误导致平均处理时长变长
复拨率上升
质检抽检通过率下降

这些成本通常远高于模型单价。

3 个企业可执行的“真实准确率”测试方法

答案先说：别迷信公开 WER；用你的数据、你的语言、你的工作流做端到端测试。

下面这三步，我建议中小团队也要做（不会很贵，但能避坑）。

1) 用“原始文本 + 业务清洗”双轨评测

不要只看供应商的标准化 WER。你至少要同时算两套：

Raw WER：尽量少清洗（只做必要的空白/编码修正）
Workflow WER：按你实际工作流会做的清洗（比如去标点、数字归一、专有名词表替换）

如果两者差距特别大（比如 20%-50% 的变化），这不是“模型突然变好”，而是你在评测另一个任务。

2) 加一组“下游任务指标”做护栏

媒体与内容产业里，真正重要的是下游效果。建议至少选一个与你的目标直接相关的指标：

字幕场景：人工校对分钟数/每小时音频、关键术语保留率
审核场景：误杀率、漏审率（用抽样标注）
检索推荐：查询命中率、点击率（CTR）变化、站内搜索零结果率
工单自动化：路由准确率、首响/首解时长、复拨率

一句话：语音识别的“准”，必须能在业务指标上站得住。

3) 对多语言做“文字系统级别”的测试集分层

如果你服务的地区覆盖南亚/东南亚，测试集别只按“语言名称”分；要按书写系统/Unicode 特性做分层：

婆罗米系（Tamil、Hindi、Bengali 等）
拉丁字母系（英语、印尼语、越南语等）
夹杂双语/混码（英语夹本地语言，媒体口播很常见）

这样你能更快识别：问题是模型、清洗、还是后处理。

选型与落地建议：把“评测透明度”当作硬指标

答案先说：语音模型选型时，准确率不是一个数字，而是一套可复现的方法。方法越透明，你越能把风险留在上线前。

结合 Deepgram 这次指出的问题，我更认可的工程化做法是：

评测脚本可复现：给出完整 normalization、tokenization、WER 计算方式。
语言专家/母语者参与：至少在数据抽检与错误类型分析阶段要有母语者。
错误分析按“可修复性”分类：
- 专有名词（可用热词/词表）
- 数字/单位（可用规则）
- 口音/噪声（可用定制模型/域适配）
- 书写系统相关（必须修 normalization 或 tokenizer）
上线后监控“漂移”：媒体内容的题材与说话方式会随热点变化（尤其 2026 年初各平台短视频与播客继续增长），要监控新词、外来词、混码比例上升带来的准确率变化。

这里有个很实际的判断标准：

如果供应商只给你一个 WER 数字，却说不清楚清洗和评测细节，那这个数字对你的自动化工作流几乎没用。

给媒体与内容团队的一句话

语音识别正在变成内容管线的“基础设施”：自动字幕、语音检索、智能创作、内容审核、推荐系统都在吃它的输出。Deepgram 这次对 Whisper 的研究提醒我们：指标可能比模型更会骗人，尤其在多语言场景。

下一步很明确：用你的真实语料（你的主持人口音、你的节目类型、你的地区语言）做小规模试点，把“转写准确率 + 下游业务指标”一起拉通，再决定是否扩大到 AI 语音助手与自动化工作流的核心链路。

如果你的团队正在做多语言字幕、语音内容审核或语音驱动的内容自动化，我建议你回头看一眼：你现在的 WER，是在评测“词”，还是在评测“被清洗后的碎片”？当你把它接进生产系统时，成本会用最直接的方式回答你。