Nova-3 新增希伯来语、波斯语、乌尔都语转写支持。用同一套 API 把多语言客服与媒体语音接入自动化工作流。

用 Nova-3 打通希伯来语/波斯语/乌尔都语语音流程
客服最贵的部分,往往不是“接电话”,而是接完之后的那一长串重复动作:听录音、做摘要、分派工单、同步 CRM、标记质检点、沉淀知识库。如果你还在靠人工把语音变成“可流转的数据”,规模一上来就会卡死。
而跨语言业务会让这件事更难:同一套 IVR、同一个坐席团队、同一套媒体内容生产流程,突然要支持从右到左(RTL)书写的语言(希伯来语、波斯语、乌尔都语),你会立刻遇到两类坑:一类是识别效果不稳,另一类是系统集成复杂度暴涨。
Deepgram 的 Nova-3 近期把希伯来语(he)、波斯语/法尔西语(fa)、乌尔都语(ur)加入生产可用语言,并且保持与既有 API 一致的调用方式,还支持实时流式与批处理、以及 Keyterm Prompting(关键词引导)。对正在做“AI 语音助手与自动化工作流”的中小企业来说,这不是“多了三门语言”这么简单,而是让你能用同一条语音管道,把客服、媒体转写、内容审核与数据分析真正串成一条自动化流水线。
在“人工智能在媒体与内容产业”这条主线里,语音转文本的意义只有一句话:把不可搜索、不可计算的音频,变成可推荐、可审核、可复用的结构化内容。
为什么 RTL 语言支持对中小企业更关键
直接答案:因为 RTL 语言最容易触发“供应商碎片化”,而中小企业最扛不住碎片化。
很多团队的多语言语音方案是这样长出来的:英语一个供应商,阿拉伯语另一个,乌尔都语再找第三个。结果是计费口径不同、SDK 不同、标注方式不同、输出格式不同,最后自动化工作流只能“半自动”。你会在 Zapier/Make、工单系统、数据仓库之间写一堆胶水代码,维护成本比识别费还高。
Nova-3 把希伯来语、波斯语、乌尔都语纳入同一平台后,对中小企业最现实的好处是:
- 同一 API / 同一鉴权 / 同一回传结构,减少工程分岔
- 同一质量基线,上线后的质检与回归更简单
- 支持实时流式(做语音助手、坐席实时提示)与批处理(录音归档、媒体转写)两套场景
- 支持 Keyterm Prompting,在不训练自定义模型的情况下,提高品牌词、产品词、专有名词的命中率
我见过不少小团队“做不起来”多语言语音助手,问题并不在算法,而在集成:只要语言一多,边界条件就指数级增加。你需要的是“少而稳”的技术栈,而不是堆模型。
Nova-3 新增的三门语言,能解决哪些真实场景
直接答案:这些语言覆盖了中东与南亚的关键商业沟通场景,最常见的是客服、销售线索、媒体内容与合规审查。
下面把三门语言放到更具体的业务画面里,方便你对号入座。
希伯来语(he):以色列市场的客服与运营
希伯来语全球使用者超过 1000 万,在以色列的电商、SaaS、金融服务里,语音渠道仍然很重。对中小企业来说,希伯来语语音转写常见的落地点是:
- 呼叫中心录音自动转写 + 质检抽查(用规则抓“敏感承诺”“未披露条款”等片段)
- 销售电话摘要同步到 CRM(把下一步行动写回字段)
- 语音工单:客户留言自动分派到正确团队
希伯来语的挑战在于口语节奏快、缩略与外来词多。工程上更麻烦的是 RTL 文本在部分系统里显示、截断、对齐会出问题——选用一致的 API 输出能省掉大量后处理成本。
波斯语/法尔西语(fa):媒体转写与舆情分析的底座
波斯语使用者约 1.3 亿,分布跨越伊朗、阿富汗、塔吉克斯坦及海外社群。对“人工智能在媒体与内容产业”的团队,波斯语更常见的价值不是“做个字幕”,而是把音频/视频内容变成可分析资产:
- 新闻、播客、访谈批量转写,自动生成章节与摘要
- 内容推荐与用户画像:把语音内容主题向量化,进入推荐系统
- 品牌监测:在大量音频节目里检索品牌与竞品提及
波斯语文本使用改造过的阿拉伯字母,专名、地名与外来品牌词混杂时,Keyterm Prompting 会显得非常实用:你不需要训练定制词表,就能在推理时引导模型更偏向你关心的词。
乌尔都语(ur):南亚客服与跨境电商增长点
乌尔都语使用者超过 2.3 亿,且在商业客服(电信、银行、电商、物流)中很常见。很多跨境电商或外贸中小企业在巴基斯坦与海湾地区做增长,电话与 WhatsApp 语音消息仍是高频触点。
乌尔都语采用 Nastaliq 书写体系,并受波斯语、阿拉伯语影响较深。对企业来说,真正的痛点是:
- 客服语音内容无法检索,导致复盘慢、知识库更新慢
- 语音线索无法结构化,导致跟进不一致、转化率波动大
把乌尔都语语音稳定转成文本后,你才能在同一套自动化工作流里做“归因、质检、转化提升”。
Keyterm Prompting:少训练,多收益的“关键词校准”
直接答案:Keyterm Prompting 是在不训练自定义模型的前提下,让转写更贴近你业务词汇的最省事方法。
很多公司一听到“专有名词识别不准”,第一反应是训练自定义模型。现实是:训练要数据、要标注、要评估,还要持续迭代。对中小企业来说,最有效的路径通常是先把 80% 的收益拿到手:用 Keyterm Prompting 做推理时的动态引导。
适用的典型词包括:
- 品牌名、产品线、型号(例如 SKU、设备名)
- 人名、地名、组织名(销售通话尤其需要)
- 行业术语(金融、医疗、物流、法律)
在自动化工作流里,你甚至可以把 Keyterm Prompting 做成“按队列/按客户动态注入”:
- CRM 里读取该客户的产品组合与历史工单
- 生成一组关键词(产品名、常见故障、合同条款)
- 调用转写时附带关键词,引导本次识别
- 输出文本进入摘要、意图识别、工单分派
这类“按上下文动态提示”的策略,往往比你想象中更能稳定识别效果,尤其适合跨语言场景。
把语音转写接入自动化工作流:一套可复制的架构
直接答案:把语音转写当作“入口层”,后面接摘要、抽取、分派、入库,你就能把客服与内容生产做成流水线。
下面是一套在中小团队里很常见、也容易落地的结构(不依赖复杂的自研平台):
1) 入口:实时流式 vs 批处理
- 实时流式转写:适合语音助手、坐席实时辅助(实时提示合规风险、推荐话术)
- 批处理转写:适合录音归档、媒体内容库、运营复盘
关键不是选哪个,而是两者都要能复用同一套下游逻辑:同样的摘要模板、同样的字段抽取、同样的入库结构。
2) 结构化:从“文本”到“可计算的数据”
拿到转写文本后,别急着只做全文存档。更值钱的是结构化字段,例如:
- 客户意图(退款/改期/投诉/咨询)
- 关键实体(订单号、产品名、金额、地址、日期)
- 情绪与风险标签(升级投诉、威胁性语言、合规敏感点)
- 下一步行动(回拨、补发、升级到二线)
这些字段一旦稳定,就能驱动自动化:自动分派、自动提醒、自动生成邮件或消息。
3) 内容产业的“第二收益”:可检索、可推荐、可审核
在“人工智能在媒体与内容产业”里,语音转写的价值会被放大:
- 内容推荐:把播客/访谈的主题切片,提升推荐相关性
- 智能创作:用转写 + 摘要快速生成节目简介、社媒短文、选题库
- 内容审核:对敏感词、违规承诺、版权风险做自动标记
一句话:语音一旦能转成高质量文本,你就拥有了可复用的数据资产,而不是一堆听不完的录音。
开发落地:如何快速验证希伯来语/波斯语/乌尔都语
直接答案:用同一个 Nova-3 API,把 language 参数切换成 he/fa/ur,先在小流量里做 A/B 与质检闭环。
Nova-3 的调用方式保持一致,切换语言只需要指定语言代码。比如希伯来语(he)的请求形式如下(示例来自官方说明):
curl --request POST \
--header "Authorization: Token YOUR_DEEPGRAM_API_KEY" \
--header "Content-Type: audio/wav" \
--data-binary @youraudio.wav \
"https://api.deepgram.com/v1/listen?model=nova-3&language=he"
我建议你用一个很务实的验证清单,而不是只看“听起来挺准”:
- 选 30-50 段真实录音(包含口音、噪声、快语速、打断)
- 标出你最在意的 20 个关键词(品牌词、产品词、地名人名)
- 同时跑“无提示”和“Keyterm Prompting”两组结果
- 记录:关键词命中率、摘要可用率、分派准确率(这三个指标比纯 WER 更接近业务价值)
如果你最终目标是“自动化工作流”,就别只盯识别本身。能不能让工单少走一次人工校对,才是 ROI。
现在就该做的下一步(尤其是 2026 年初)
直接答案:先把语音内容的“数据化”做起来,再谈多语言扩张与智能体体验。
2026 年初,很多团队会同时面对两件事:一是跨境增长更常态化,二是内容渠道更碎片化(语音消息、短音频、直播回放)。这意味着语音数据会继续爆炸。拖得越久,历史录音就越像“沉没成本”。
如果你的业务覆盖中东或南亚,或者你正在做面向海外受众的媒体内容,希伯来语、波斯语、乌尔都语的稳定语音转写会让你马上获得三类收益:
- 客服与销售流程的自动化程度更高(摘要、分派、回写)
- 内容资产可检索、可推荐、可审核(支撑内容运营与合规)
- 多语言扩张的工程成本下降(一个平台、一套 API)
Deepgram 提供试玩与 API 方式测试,并有注册额度(官方信息为:注册可获得 200 美元额度,用于数百小时级别的转写测试)。如果你想把语音助手接到工单、CRM、内容库里,这是一个很合适的切入点:先选一条业务链路跑通,再复制到更多语言与更多队列。
最后留个更现实的问题:你现在的语音数据,正在变成可复用的内容资产,还是只是在硬盘里越堆越多?