用Next.js接入语音转文字,把会议/通话录音自动变纪要与任务。小企业从“能转录”走到“能自动化”的落地路径。

Next.js语音转文字:小企业2小时/天省出来
一场 45 分钟的周会,真正吃掉的时间往往不是开会本身,而是会后整理:录音回放、补全要点、分配任务、写纪要、发群确认。很多小团队每天都在重复这个流程,最后变成“会议越多,执行越慢”。
我见过最常见的误区是:大家把语音识别当成“做个字幕”的功能。其实更有价值的用法是把它当作自动化工作流的入口:只要能把声音稳定地变成结构化文本,你就能让 AI 语音助手把纪要、待办、CRM 跟进、工单创建这些重复工作自动跑起来。
这篇文章属于「AI 语音助手与自动化工作流:小企业的效率倍增器」系列。我们会用一个很落地的 Next.js 案例(基于 Deepgram 的 Speech-to-Text)讲清楚:小企业如何在自己的业务系统里接入语音转文本,并把“转录结果”接到你现有的工具链上,真正省人力、提速度。
语音转文字对小企业最值钱的3个场景
先给结论:**语音识别最值钱的不是“识别本身”,而是它让信息进入可自动处理的管道。**下面三个场景最容易在一两周内见到回报。
1) 会议纪要自动生成:减少回放时间
把 Zoom/腾讯会议/飞书会议录音(或手机录音)丢进语音转文字接口,你能立刻得到可检索的文本。下一步才关键:
- 用模板把文本转成“议题—结论—行动项—负责人—截止时间”
- 自动把行动项写入任务工具(Trello/飞书任务/Notion/Jira)
- 把纪要发到群里并@相关人确认
对 5–20 人的小团队来说,这类流程通常能把“会后 30–60 分钟整理”压到“5–10 分钟校对”。
2) 销售/客服通话:把对话直接变成跟进动作
销售电话的价值在于:客户痛点、异议、下一步承诺。如果通话能自动转成文本,就能:
- 自动提取“客户意向、预算、时间表、竞品”
- 自动生成跟进邮件草稿
- 自动创建 CRM 任务与提醒
这比“事后凭记忆补录 CRM”更可靠。
3) 语音指令驱动内部流程:让 AI 语音助手真正能办事
当你能把语音稳定转成文本,就能做出“语音一说,流程就跑”的内部助手,比如:
- “帮我创建一个售后工单:客户张三,产品A,问题是无法登录”
- “把今天的访谈整理成要点并发到项目群”
语音转文字是第一步,后面连接自动化平台(如 Make/Zapier/自建 webhook)才是效率倍增器。
用 Next.js 接入 Speech-to-Text:架构怎么选才不踩坑
直接把 API Key 放在前端调用第三方语音识别接口?别这么做。
正确姿势是:
- 前端(Next.js 页面)收集音频链接或上传文件
- 发送到 Next.js API Route(服务端)
- 服务端用环境变量里的密钥调用 Speech-to-Text(Deepgram)
- 把转录结果返回前端
这样做有三个好处:
- 密钥安全:不会被浏览器抓包拿走
- 可控成本:你可以做配额、限流、审计
- 便于扩展:后续接入“摘要、任务抽取、自动入库”都在服务端完成
一句话:小企业要做“能落地的 AI 语音助手”,一定要把关键调用放到服务端。
实战:把“音频链接”转成可读的逐字稿(含多说话人)
下面的实现思路来自 Deepgram 的 Next.js 教程(原作者 Bekah Hawrot Weigel),我会把它改写成更贴近业务落地的版本:不仅能转录,还能为后续自动化工作流留好接口。
前端:收集音频链接 + 发起转录
在 pages/index.tsx 里,你需要:
- 一个输入框,填写音频 URL(会议录音、播客、客服录音都行)
useState保存 URL 与转录文本- 点击按钮触发
transcribe()调用你自己的 API Route
示例(核心逻辑,样式略):
<form>
<label htmlFor="audio-file">Link to Audio</label>
<input
onChange={(e) => setFile(e.target.value)}
type="text"
id="audio-file"
name="audio-file"
required
/>
<button type="button" onClick={transcribe}>
Transcribe
</button>
</form>
配套 state:
const [file, setFile] = useState('');
const [transcription, setTranscription] = useState('');
前端调用:
const transcribe = async () => {
const response = await fetch('/api/transcribe', {
method: 'POST',
body: JSON.stringify({ url: file }),
});
const received = await response.json();
const data = JSON.parse(received);
const text = data.results.channels[0].alternatives[0].paragraphs.transcript;
setTranscription(text);
};
服务端:Next.js API Route 安全调用 Deepgram
在 pages/api/transcribe.ts(或 .tsx)中:
- 从环境变量读取
DG_API_KEY - 解析前端传来的
url - POST 到 Deepgram 的
/v1/listen
示例(保留原文关键参数):
export default async function handler(req, res) {
const mySecret = process.env['DG_API_KEY'];
const { url } = JSON.parse(req.body);
const response = await fetch(
'https://api.deepgram.com/v1/listen?tier=enhanced&punctuate=true¶graphs=true&diarize=true',
{
method: 'POST',
headers: {
Authorization: 'Token ' + mySecret,
'Content-Type': 'application/json',
},
body: JSON.stringify({ url }),
}
);
const json = await response.json();
res.status(200).json(JSON.stringify(json));
}
这里有三个参数对“业务可读性”非常关键:
punctuate=true:自动标点,不然读起来像一长串paragraphs=true:更适合纪要/摘要diarize=true:多说话人分离(会议、访谈、客服通话都很需要)
展示层:把转录结果变得更“像纪要”
原教程用了 split(".") 简单分行展示。我建议你更进一步:按说话人/段落展示,而不是按句号拆。
但如果你先要一个最快可用版本,可以先这样:
const [lines, setLines] = useState<string[]>([]);
useEffect(() => {
if (!transcription) return;
setLines(transcription.split('.'));
}, [transcription]);
{transcription && (
<div>
{lines.map((line, index) => (
<p key={index}>{line}</p>
))}
</div>
)}
这一步的意义是:让团队愿意用。可读性决定采用率。
从“能转录”到“能省人”:把转录接进自动化工作流
真正的 ROI 在这里。你已经有了文本,接下来要把它变成动作。
会议纪要自动化:推荐的最小闭环
我做小企业落地时常用的闭环是:
- 语音转文字得到 transcript
- 用 LLM(内部或第三方)做结构化输出:
- 会议结论(3–7 条)
- 行动项列表(每条包含负责人/截止日期/优先级)
- 风险与待确认问题
- 写入你的系统:
- 创建任务卡片
- 发送纪要到群/邮件
- 在知识库里归档并可检索
经验之谈:别追求“一次全自动”。让系统先做到 80 分,然后让人类花 5 分钟校对,效果会比你想象中好得多。
销售通话自动化:让 CRM 录入不再靠自觉
你可以在 API Route 返回转录后,直接再调用一个“抽取器”把字段提出来:
- 客户公司/联系人
- 需求点(原话引用)
- 下一步动作(约 demo、报价、发资料)
- 时间节点
然后写入 CRM 或生成跟进任务。团队会明显感到“跟进更稳、漏单更少”。
语音指令工作流:从一句话创建工单
把转录结果当作“指令文本”,做一个简单的意图分类:
- 创建工单
- 创建任务
- 发送邮件
- 更新客户状态
小企业常见的落地方式是先做 2–3 个高频指令,别一口气做全套。
常见问题:落地时你会遇到什么
转录准确率不稳定怎么办?
先从可控变量下手:
- 录音质量:尽量用会议软件原生录音或独立麦克风
- 术语/人名:把常见词做成关键词/自定义词表(不同服务支持方式不同)
- 后处理:用“段落 + 标点 + 说话人分离”提升可读性
准确率不是玄学,更多是工程问题。
成本会不会失控?
会,尤其是当你把“每次录音都全量转录”当默认策略。
建议加三道闸:
- 长度限制:比如超过 60 分钟需要管理员确认
- 按需转录:只转录重点会议/重点通话
- 缓存与复用:同一音频 URL 不重复计费
数据合规怎么做?
如果涉及客户通话或敏感信息:
- 在服务端做日志审计(谁转录了什么)
- 设置存储期限(30/90 天自动清理)
- 对接企业的权限体系(最少权限原则)
小企业也可以做得很专业,关键是从一开始就把服务端当“控制中心”。
你现在就能做的下一步
如果你已经有 Next.js 项目,最快的落地路径是:先把语音转文字接进来,再把“会议纪要自动生成”跑通。这条链路最通用、最容易看到节省时间的效果,也最适合作为你们 AI 语音助手与自动化工作流的起点。
我建议你用两天时间做一个内部试点:选 3 次会议录音,自动转录 + 人工校对 + 自动生成行动项,看看团队每次能省多少分钟。只要这一步成立,后面接 CRM、工单、知识库都顺理成章。
当“声音”能自动变成“任务与进度”,你会发现一个变化:会议并不会变少,但执行会变快。你们团队会把精力从整理与抄写,转回到真正能带来增长的事情上。