人工智能在媒体与内容产业•2026年2月13日•By 3L3C

MiniCPM-o4.5开源把“看听说+主动对话”带入端侧时代。本文拆解其机制，并给出智能座舱与车载内容推荐/审核的落地思路。

智能座舱多模态端侧AI车载语音交互内容推荐内容安全

Featured image for 车载多模态AI走向主动对话：MiniCPM-o4.5启示录

车载多模态AI走向主动对话：MiniCPM-o4.5启示录

2026-02-05，MiniMax 把全模态模型 MiniCPM-o4.5 开源了：能“看、听、说”并且不等你开口就先说。我更在意的不是“又一个开源大模型”，而是它明确把交互从“你问我答”推向了连续对话与主动介入。

这对汽车软件与用户体验（UX）太关键了。智能座舱这些年堆了大屏、语音、手势、HUD，但很多体验仍停留在“点一下/喊一声才动”。现实驾驶场景里，用户的注意力是稀缺资源，交互必须更像副驾驶：该提醒时提醒、该闭嘴时闭嘴、还能被打断。

本文把 MiniCPM-o4.5 的关键机制拆开，落到汽车与“人工智能在媒体与内容产业”这条主线：当内容（导航、音乐、短视频、车况、消息）变成流式输入输出，车载 AI 如何用更低延迟、更强上下文理解，完成推荐、创作、审核与个性化分发，并且带来可落地的产品方案。

从“问答式语音助手”到“主动对话副驾驶”

核心变化：AI 不再等触发词，而是持续理解环境并在合适时机介入。 这听起来简单，落到产品上却是分水岭：从“命令系统”转为“协作系统”。

MiniCPM-o4.5 的演示很有代表性：空气炸锅响一声，它就主动播报加热完成；超市货架变化，它能持续跟踪并回答价格；电梯楼层变化，它会提醒到达。这些都不是“识别到你说话”才启动，而是把视觉/音频当成持续流，边看边听边说。

放到车里，场景更密集：

视觉流：前车切入、行人横穿、交通标志、车道线、仪表告警、HUD 信息
音频流：车内对话、电话、导航播报、转向灯提示音、ADAS 提示音
内容流（媒体/信息流）：音乐/播客、短视频（停车时）、车机消息、日程、充电与能耗报告

过去我们把这些拆成一堆孤立模块：语音助手管语音，推荐系统管媒体，驾驶辅助管提示音。结果是：信息互相打架，用户被“通知风暴”打断。主动对话式 AI 的价值在于：它能把多源信号合成一个“对话决策”，决定何时说、说什么、用什么方式说。

一句能被产品团队直接拿去用的话：车载AI真正的 KPI 不是识别率，而是“在不打扰驾驶的前提下，减少用户的决策成本”。

MiniCPM-o4.5 的技术点：全双工流式多模态，为什么适合座舱

答案先给：全双工 + 流式输入输出 + 自主入场判断，让交互更像真人对话。

全双工：边听边说，支持自然打断

传统车载语音常见问题是“你别说话，我在播报”。而 MiniCPM-o4.5 采用 full-duplex（全双工）实时多模态流：视频与音频输入持续处理，输出并行生成，互不阻塞。

在座舱里，全双工带来两个体验提升：

导航播报可被自然打断：用户一句“别播了，直接带我上高架”，系统能立刻停并切换策略
媒体与对话并行：音乐不必硬暂停，AI 可以用更短的插播、耳语式提示或方向盘触感配合

1 Hz 语义判断：不是“听到静音才响应”

报道提到它以约 1 Hz 做语义判断，自主决定何时进入对话，而不是依赖“静音检测”。这点在车里特别重要：驾驶舱里噪声与人声混杂，静音检测很容易误判。

产品层面的启示是：触发机制要从声学规则转向语义与场景规则。

语义：用户是否在与乘客聊天、是否在打电话
场景：车速、路况复杂度、是否在变道/进匝道
风险：提示属于“必须说”（安全）还是“可稍后说”（内容）

端侧优先：9B 参数与“边缘原生”的现实意义

MiniCPM-o4.5 是 9B（90亿）参数且强调 edge-native，并将随 “Pinea Pi” 开发板提供即插即用方案。对汽车来说，端侧优先不是口号，而是三件事：

时延：关键交互要稳定在几百毫秒级，不受网络抖动影响
隐私：车内对话、摄像头画面、行程数据不该默认上云
成本与可控性：云推理成本会随调用量爆炸，端侧更适合高频交互

我的观点很明确：座舱“高频、低风险”的能力应端侧解决；“低频、重内容”的能力可以云端补强。

车载UX怎么用“看听说+主动对话”做出差异化

答案先给：把主动对话用于“时机管理、内容组织与多模态呈现”，而不是做更多废话。

场景1：把 ADAS 提示从“警报”变成“可解释的对话”

用户讨厌两件事：突然响、还不知道为什么响。主动对话可以把提示分层：

第一层（必须）：短促提示音 + HUD 关键字（例如“右侧来车”）
第二层（可解释）：AI 低干扰补一句原因（例如“右侧车辆速度更快，暂缓变道”）
第三层（复盘）：停车后给出短视频片段与文字总结（媒体内容化）

这就把“安全提示”纳入了内容产业那条链路：信息组织、摘要生成、可视化复盘。

场景2：车内媒体推荐从“猜你喜欢”升级为“你现在适合听什么”

内容推荐在车里经常被照搬手机逻辑，但车载情境差异巨大。主动对话式多模态可以用“可观测状态”改变推荐策略：

视觉/车况：夜间、雨雪、拥堵、长途
音频：车内是否多人交谈
行程：剩余时间、是否即将到达

举个更具体的策略（可直接写 PRD）：

进高速后 5 分钟：AI 主动建议“要不要切到播客/长音频？这段路直线多”
拥堵+多人聊天：降低语音打扰，推荐“低存在感背景音乐”
临近目的地 3 分钟：自动收尾内容，避免“听到一半被迫下车”的挫败

这类推荐属于“智能分发”，而且天然更符合中国用户对“懂我但别烦我”的期待。

场景3：车载内容审核与合规，从“屏蔽词”走向“多模态理解”

车机越来越像媒体终端：视频、直播、消息、语音输入输出。合规风险也更复杂：

驾驶中播放视频的诱导
未成年人模式与内容分级
语音生成内容的敏感信息

多模态流式模型的好处是：它能把“正在驾驶”“屏幕内容”“用户互动意图”放在一起理解。

一个更务实的落地方式：

端侧实时识别驾驶状态与屏幕展示类型
云端做更重的内容安全与账号风控
规则层明确“可播/可延后/必须禁止”三档

合规不是产品的刹车，它应该是体验的一部分。 例如：AI 不用冷冰冰地弹窗“禁止播放”，而是说“现在在行驶，我把视频转成音频，等停车再续播”。

开源带来的机会：汽车软件团队如何低成本试水

答案先给：用开源模型做“端侧原型 + 场景评估”，先验证体验闭环，再谈大规模量产。

MiniCPM-o4.5 开源意味着两类团队会受益：

主机厂/一级供应商：能更快做座舱 AI 的端侧 PoC
内容与生态伙伴：能把内容生产、摘要、推荐、审核嵌入车载场景

我建议按四步走（2-6 周能看到结果）：

挑 3 个高频场景：例如“进匝道提示”“到站提醒”“媒体切换建议”
定义可量化指标：
- 打断率（用户打断播报的比例）
- 误入场率（不该说话时说了）
- 任务完成时间（从意图到完成）
端侧优先做流式原型：先把“看听说并行”和“可被打断”跑起来
加一层‘时机策略’：把车速/路况/驾驶任务负荷纳入“说不说”的决策

这里有个常见误区：只盯着模型能力，忽略交互策略。现实是——主动对话做不好，比不会说更招人烦。

写在最后：下一代座舱，不是更会聊天，而是更会“挑时机说重点”

MiniCPM-o4.5 的看点不止开源，更在于它用全双工流式机制把交互范式推向“连续对话”。对汽车软件来说，这意味着：智能座舱的竞争点会从“功能列表”转向“对话节奏与内容组织”。

如果你正在做车载语音、推荐系统、内容生态或座舱 HMI，我的建议是：先别急着给 AI 加更多技能，先把三件事做到位——能并行、能被打断、懂得闭嘴。当车内信息流越来越像媒体信息流时，这三件事决定用户会不会长期留下来。

你更想先在座舱里落地哪一种“主动对话”场景：安全提示的可解释化、媒体推荐的情境化，还是内容合规的体验化？

车载多模态AI走向主动对话：MiniCPM-o4.5启示录

车载多模态AI走向主动对话：MiniCPM-o4.5启示录

从“问答式语音助手”到“主动对话副驾驶”

MiniCPM-o4.5 的技术点：全双工流式多模态，为什么适合座舱

全双工：边听边说，支持自然打断

1 Hz 语义判断：不是“听到静音才响应”

端侧优先：9B 参数与“边缘原生”的现实意义

车载UX怎么用“看听说+主动对话”做出差异化

场景1：把 ADAS 提示从“警报”变成“可解释的对话”

场景2：车内媒体推荐从“猜你喜欢”升级为“你现在适合听什么”

场景3：车载内容审核与合规，从“屏蔽词”走向“多模态理解”

开源带来的机会：汽车软件团队如何低成本试水

People Also Ask：读者常追问的3个问题

1）车载主动对话会不会更分心？

2）端侧9B模型够用吗？

3）这和“人工智能在媒体与内容产业”有什么关系？

写在最后：下一代座舱，不是更会聊天，而是更会“挑时机说重点”