人工智能在媒体与内容产业•2026年2月13日•By 3L3C

Nova-3 新增希伯来语、波斯语、乌尔都语转写支持。用同一套 API 把多语言客服与媒体语音接入自动化工作流。

语音转写多语言客服自动化工作流语音助手媒体内容AIRTL语言

Featured image for 用 Nova-3 打通希伯来语/波斯语/乌尔都语语音流程

用 Nova-3 打通希伯来语/波斯语/乌尔都语语音流程

客服最贵的部分，往往不是“接电话”，而是接完之后的那一长串重复动作：听录音、做摘要、分派工单、同步 CRM、标记质检点、沉淀知识库。如果你还在靠人工把语音变成“可流转的数据”，规模一上来就会卡死。

而跨语言业务会让这件事更难：同一套 IVR、同一个坐席团队、同一套媒体内容生产流程，突然要支持从右到左（RTL）书写的语言（希伯来语、波斯语、乌尔都语），你会立刻遇到两类坑：一类是识别效果不稳，另一类是系统集成复杂度暴涨。

Deepgram 的 Nova-3 近期把希伯来语（he）、波斯语/法尔西语（fa）、乌尔都语（ur）加入生产可用语言，并且保持与既有 API 一致的调用方式，还支持实时流式与批处理、以及 Keyterm Prompting（关键词引导）。对正在做“AI 语音助手与自动化工作流”的中小企业来说，这不是“多了三门语言”这么简单，而是让你能用同一条语音管道，把客服、媒体转写、内容审核与数据分析真正串成一条自动化流水线。

在“人工智能在媒体与内容产业”这条主线里，语音转文本的意义只有一句话：把不可搜索、不可计算的音频，变成可推荐、可审核、可复用的结构化内容。

为什么 RTL 语言支持对中小企业更关键

直接答案：因为 RTL 语言最容易触发“供应商碎片化”，而中小企业最扛不住碎片化。

很多团队的多语言语音方案是这样长出来的：英语一个供应商，阿拉伯语另一个，乌尔都语再找第三个。结果是计费口径不同、SDK 不同、标注方式不同、输出格式不同，最后自动化工作流只能“半自动”。你会在 Zapier/Make、工单系统、数据仓库之间写一堆胶水代码，维护成本比识别费还高。

Nova-3 把希伯来语、波斯语、乌尔都语纳入同一平台后，对中小企业最现实的好处是：

同一 API / 同一鉴权 / 同一回传结构，减少工程分岔
同一质量基线，上线后的质检与回归更简单
支持实时流式（做语音助手、坐席实时提示）与批处理（录音归档、媒体转写）两套场景
支持 Keyterm Prompting，在不训练自定义模型的情况下，提高品牌词、产品词、专有名词的命中率

我见过不少小团队“做不起来”多语言语音助手，问题并不在算法，而在集成：只要语言一多，边界条件就指数级增加。你需要的是“少而稳”的技术栈，而不是堆模型。

Nova-3 新增的三门语言，能解决哪些真实场景

直接答案：这些语言覆盖了中东与南亚的关键商业沟通场景，最常见的是客服、销售线索、媒体内容与合规审查。

下面把三门语言放到更具体的业务画面里，方便你对号入座。

希伯来语（he）：以色列市场的客服与运营

希伯来语全球使用者超过 1000 万，在以色列的电商、SaaS、金融服务里，语音渠道仍然很重。对中小企业来说，希伯来语语音转写常见的落地点是：

呼叫中心录音自动转写 + 质检抽查（用规则抓“敏感承诺”“未披露条款”等片段）
销售电话摘要同步到 CRM（把下一步行动写回字段）
语音工单：客户留言自动分派到正确团队

希伯来语的挑战在于口语节奏快、缩略与外来词多。工程上更麻烦的是 RTL 文本在部分系统里显示、截断、对齐会出问题——选用一致的 API 输出能省掉大量后处理成本。

波斯语/法尔西语（fa）：媒体转写与舆情分析的底座

波斯语使用者约 1.3 亿，分布跨越伊朗、阿富汗、塔吉克斯坦及海外社群。对“人工智能在媒体与内容产业”的团队，波斯语更常见的价值不是“做个字幕”，而是把音频/视频内容变成可分析资产：

新闻、播客、访谈批量转写，自动生成章节与摘要
内容推荐与用户画像：把语音内容主题向量化，进入推荐系统
品牌监测：在大量音频节目里检索品牌与竞品提及

波斯语文本使用改造过的阿拉伯字母，专名、地名与外来品牌词混杂时，Keyterm Prompting 会显得非常实用：你不需要训练定制词表，就能在推理时引导模型更偏向你关心的词。

乌尔都语（ur）：南亚客服与跨境电商增长点

乌尔都语使用者超过 2.3 亿，且在商业客服（电信、银行、电商、物流）中很常见。很多跨境电商或外贸中小企业在巴基斯坦与海湾地区做增长，电话与 WhatsApp 语音消息仍是高频触点。

乌尔都语采用 Nastaliq 书写体系，并受波斯语、阿拉伯语影响较深。对企业来说，真正的痛点是：

客服语音内容无法检索，导致复盘慢、知识库更新慢
语音线索无法结构化，导致跟进不一致、转化率波动大

把乌尔都语语音稳定转成文本后，你才能在同一套自动化工作流里做“归因、质检、转化提升”。

Keyterm Prompting：少训练，多收益的“关键词校准”

直接答案：Keyterm Prompting 是在不训练自定义模型的前提下，让转写更贴近你业务词汇的最省事方法。

很多公司一听到“专有名词识别不准”，第一反应是训练自定义模型。现实是：训练要数据、要标注、要评估，还要持续迭代。对中小企业来说，最有效的路径通常是先把 80% 的收益拿到手：用 Keyterm Prompting 做推理时的动态引导。

适用的典型词包括：

品牌名、产品线、型号（例如 SKU、设备名）
人名、地名、组织名（销售通话尤其需要）
行业术语（金融、医疗、物流、法律）

在自动化工作流里，你甚至可以把 Keyterm Prompting 做成“按队列/按客户动态注入”：

CRM 里读取该客户的产品组合与历史工单
生成一组关键词（产品名、常见故障、合同条款）
调用转写时附带关键词，引导本次识别
输出文本进入摘要、意图识别、工单分派

这类“按上下文动态提示”的策略，往往比你想象中更能稳定识别效果，尤其适合跨语言场景。

把语音转写接入自动化工作流：一套可复制的架构

直接答案：把语音转写当作“入口层”，后面接摘要、抽取、分派、入库，你就能把客服与内容生产做成流水线。

下面是一套在中小团队里很常见、也容易落地的结构（不依赖复杂的自研平台）：

1) 入口：实时流式 vs 批处理

实时流式转写：适合语音助手、坐席实时辅助（实时提示合规风险、推荐话术）
批处理转写：适合录音归档、媒体内容库、运营复盘

关键不是选哪个，而是两者都要能复用同一套下游逻辑：同样的摘要模板、同样的字段抽取、同样的入库结构。

2) 结构化：从“文本”到“可计算的数据”

拿到转写文本后，别急着只做全文存档。更值钱的是结构化字段，例如：

客户意图（退款/改期/投诉/咨询）
关键实体（订单号、产品名、金额、地址、日期）
情绪与风险标签（升级投诉、威胁性语言、合规敏感点）
下一步行动（回拨、补发、升级到二线）

这些字段一旦稳定，就能驱动自动化：自动分派、自动提醒、自动生成邮件或消息。

3) 内容产业的“第二收益”：可检索、可推荐、可审核

在“人工智能在媒体与内容产业”里，语音转写的价值会被放大：

内容推荐：把播客/访谈的主题切片，提升推荐相关性
智能创作：用转写 + 摘要快速生成节目简介、社媒短文、选题库
内容审核：对敏感词、违规承诺、版权风险做自动标记

一句话：语音一旦能转成高质量文本，你就拥有了可复用的数据资产，而不是一堆听不完的录音。

开发落地：如何快速验证希伯来语/波斯语/乌尔都语

直接答案：用同一个 Nova-3 API，把 language 参数切换成 he/fa/ur，先在小流量里做 A/B 与质检闭环。

Nova-3 的调用方式保持一致，切换语言只需要指定语言代码。比如希伯来语（he）的请求形式如下（示例来自官方说明）：

curl --request POST \
  --header "Authorization: Token YOUR_DEEPGRAM_API_KEY" \
  --header "Content-Type: audio/wav" \
  --data-binary @youraudio.wav \
  "https://api.deepgram.com/v1/listen?model=nova-3&language=he"

我建议你用一个很务实的验证清单，而不是只看“听起来挺准”：

选 30-50 段真实录音（包含口音、噪声、快语速、打断）
标出你最在意的 20 个关键词（品牌词、产品词、地名人名）
同时跑“无提示”和“Keyterm Prompting”两组结果
记录：关键词命中率、摘要可用率、分派准确率（这三个指标比纯 WER 更接近业务价值）

如果你最终目标是“自动化工作流”，就别只盯识别本身。能不能让工单少走一次人工校对，才是 ROI。

现在就该做的下一步（尤其是 2026 年初）

直接答案：先把语音内容的“数据化”做起来，再谈多语言扩张与智能体体验。

2026 年初，很多团队会同时面对两件事：一是跨境增长更常态化，二是内容渠道更碎片化（语音消息、短音频、直播回放）。这意味着语音数据会继续爆炸。拖得越久，历史录音就越像“沉没成本”。

如果你的业务覆盖中东或南亚，或者你正在做面向海外受众的媒体内容，希伯来语、波斯语、乌尔都语的稳定语音转写会让你马上获得三类收益：

客服与销售流程的自动化程度更高（摘要、分派、回写）
内容资产可检索、可推荐、可审核（支撑内容运营与合规）
多语言扩张的工程成本下降（一个平台、一套 API）

Deepgram 提供试玩与 API 方式测试，并有注册额度（官方信息为：注册可获得 200 美元额度，用于数百小时级别的转写测试）。如果你想把语音助手接到工单、CRM、内容库里，这是一个很合适的切入点：先选一条业务链路跑通，再复制到更多语言与更多队列。

最后留个更现实的问题：你现在的语音数据，正在变成可复用的内容资产，还是只是在硬盘里越堆越多？