人工智能在媒体与内容产业•2026年2月6日•By 3L3C

MiniCPM-o4.5开源把交互从问答推向主动对话。本文拆解其全双工流式多模态与边缘AI价值，并给出车载智能座舱与内容体验的落地路线。

MiniCPM-o4.5全模态AI智能座舱边缘计算车载语音交互内容推荐

Featured image for 车载主动式全模态AI来了：MiniCPM-o4.5如何重塑智能座舱体验

车载主动式全模态AI来了：MiniCPM-o4.5如何重塑智能座舱体验

2026-02-05，MiniMax 把全模态模型 MiniCPM-o4.5 开源了。它不是“你问我答”的那类助手，而是能看、听、说并行，还会在合适的时机主动开口。这件事放在“人工智能在媒体与内容产业”系列里看，意义很明确：交互从“内容检索”走向“内容编排”，从“响应式”走向“主动式”。

我更关心的是另一个落点：汽车软件与用户体验。智能座舱这几年卷语音、卷大屏、卷应用生态，但大量体验仍停留在“点一下、说一句、等反馈”。真正的下一步，是车像一个有分寸的“副驾驶”，在需要时打断你、提醒你、替你把信息组织好——前提是它必须低延迟、能持续理解环境、并且最好在本地跑，隐私和稳定性都更可控。

MiniCPM-o4.5 的发布，给了行业一个很清晰的样板：连续流式、多模态、全双工、边缘优先。下面我们把它拆开，看看它为什么对智能座舱与车载内容体验这么关键，以及汽车团队怎么把“能说会看”做成“说得对、说得克制、说得安全”。

从“问答助手”到“持续对话”：座舱交互的分水岭

答案先说：主动式全模态交互会把座舱 UX 从“应用中心”推向“场景中心”。 你不再需要先决定打开哪个 App、点哪个按钮，系统会围绕“正在发生什么”组织信息与动作。

MiniCPM-o4.5 在演示里展示了几个关键能力：

听到空气炸锅提示音后主动播报“加热完成”（不等用户发问）
在超市环境里持续跟踪货架变化，并能即时回答价格
在电梯里识别楼层变化，到站主动提醒

把这些能力迁移到汽车，场景其实更典型：车辆是传感器密度更高、事件更频繁的移动空间。比如：

驾驶中：前方施工+导航改道+车内对话同时发生，系统要能“插话”但不打扰
泊车中：环视影像、雷达提示、车位线变化不断，系统要能边看边讲解
长途出行：道路风险、休息需求、媒体内容切换并行，系统要能连续理解并管理注意力

一句话概括：座舱的难点不是“能回答”，而是“知道什么时候该说、说什么、说到什么程度”。

关键技术点：全双工流式多模态，为什么对车更友好

答案先说：全双工+流式处理让车载助手具备“边听边看边说”的实时性，且允许自然打断与插入。 这比传统“录一段音—转写—推理—再播报”的流水线更接近真实对话。

根据公开信息，MiniCPM-o4.5 的架构做了重构，核心亮点包括：

1) 全双工实时多模态流（Streaming）

视频和音频输入可以连续进入，模型输出也能并行生成，不会互相阻塞。这对于车载场景很关键：

车内对话与路况变化是并发的
语音播报过程中，驾驶员可能插话打断
摄像头画面/车道线/交通标志识别需要持续更新

2) 约 1 Hz 的语义判断：决定“何时入场”

它不是简单的“静音检测（VAD）”，而是以大约每秒一次的频率做语义层面的入场决策：要不要加入对话、要不要提醒、提醒的紧急程度如何。

这点对智能座舱 UX 影响巨大：

减少“没必要的唠叨”（降低打扰）
在关键时刻敢于打断（提高安全性）
形成稳定的“交互人格”：克制但可靠

可被引用的一句话：车载语音的体验上限，不在识别率，而在“入场时机”。

3) 边缘原生（Edge-native）：9B 参数也能谈部署

MiniCPM-o4.5 公开信息提到它是 9B 参数、强调边缘 AI，并将随 MiniMax 的首款 AI 硬件产品 “Pinea Pi” 开发板（预计 2026 年内）一起推进软硬协同。

对汽车来说，“能在端侧跑”带来三类直接收益：

低延迟：提示音、危险事件、交互轮次都更快
更强隐私：车内音视频不必全量上云
弱网可用：隧道/山区/地下车库等场景稳定性更高

把厨房/电梯的“主动提醒”搬进车里：5个可落地场景

答案先说：主动式全模态 AI 在车内最适合做“事件驱动的内容与动作编排”。 它不需要每次都给出长答案，而是给出恰到好处的“下一步”。

下面是我认为更容易做出差异化、也更符合安全边界的 5 个场景：

1) 导航与风险提示：把“信息”变成“决策辅助”

传统导航常见问题：提示晚、提示多、与驾驶任务冲突。

更好的做法是：AI 看到路牌/锥桶阵列变化、听到驾驶员对话的焦虑语气、结合地图与车速，给出短句主动提醒：

“前方 300 米临时改道，建议现在并入右侧车道。”
“这段限速降到 60，我帮你把巡航调到 62（确认吗）？”

关键是短、明确、可确认。

2) 泊车助手：从“提示音”升级为“解释与预判”

很多车的泊车提示音会让新手更紧张，因为它只有“危险”没有“原因”。

全模态 AI 可以把环视画面+雷达事件转成解释：

“左后方是低矮石墩，雷达容易误判距离。我建议你向右修一点方向。”

3) 车内内容体验：媒体与内容产业的真正入口

这篇文章属于“人工智能在媒体与内容产业”系列，我想强调：车载主动式 AI 会成为内容分发的新界面。

它不是把音乐/播客/资讯堆在大屏上，而是根据场景做“内容编排”：

你上车说“赶时间”，它自动切到 1.2 倍速新闻简报，5 分钟版
你在高速稳定巡航，它建议继续播放长播客，并在服务区前 5 分钟提醒“要不要先暂停，等你回来续播”
家庭出行后排有人说“无聊”，它主动推荐适龄音频并切到后排声场

这里的关键词是：推荐系统 + 语音交互 + 场景理解 的融合。内容产业会从“看点击率”转向“看任务完成率与满意度”。

4) 车机生态：从“装很多 App”到“少操作也能完成”

当 AI 能持续感知（看/听）并主动对话，很多 App 的功能会被“上收”成系统级意图：

“把今晚 20:00 的会议地点设为导航目的地，并通知对方我 19:55 到。”
“我在超市停车场，帮我记一下车位区域和楼层。”

这对汽车软件团队意味着：需要更强的意图路由、权限系统、以及跨应用的统一数据层。

5) 服务与维保：把故障灯变成可理解的建议

当车辆出现异常告警，用户最怕的是“看不懂、又不敢开”。

全模态+主动式可以这样做：

识别仪表警告图标 + 读取车辆状态 + 结合驾驶环境
用一句话给出风险等级和下一步

例如：

“这是胎压偏低提醒，当前还能安全行驶 10 公里内。我已为你标注最近的充气点，是否导航？”

做到“主动但不烦”：车载主动式AI的产品三条红线

答案先说：主动式 AI 如果不设边界，会快速从“贴心”变成“打扰”，甚至带来安全风险。

我建议汽车团队至少守住三条红线：

优先级机制必须硬编码：安全相关（碰撞、车道偏离、极端天气）> 导航关键转向 > 车辆状态 > 内容与娱乐。不要把优先级完全交给模型自发决定。
可打断、可静音、可回溯：用户一句“先别说”就要立即收声；同时要提供“刚才说到哪/为什么提醒我”的回溯入口。
隐私默认本地化：涉及车内音视频、乘员画像、儿童识别等能力，优先端侧处理；若上云，必须有明确授权与可撤销机制。

适合直接引用的定义：好的车载主动式AI，是“在正确的时间，用最短的话，给可执行的下一步”。

企业落地路线：从 PoC 到量产，该怎么评估

答案先说：别先追“全能助手”，先从“高频事件 + 明确动作”的闭环做起。 这也是最容易产生线索（LEADS）的切入点：能清晰算 ROI，也更容易跨部门对齐。

我通常会建议按三步走：

1) 选场景：事件触发清晰、误判成本可控

优先选择：

泊车解释
导航关键转向与施工改道
维保/告警的解释与服务推荐
车内内容“短简报”（资讯、路况、行程相关信息）

2) 定指标：用“体验指标”而不是只看模型指标

可以量化的指标例子：

首次响应延迟（ms）
打断后恢复对话成功率（%）
主动提醒的接受率/关闭率（%）
同一行程内重复提醒次数（越少越好）
驾驶分心相关代理指标（如交互时长、视线离开道路的次数）

3) 设治理：权限、日志、评测集

主动式多模态一定要有：

权限分级（能说、能建议、能执行三档）
可审计日志（为什么触发、触发时输入是什么、输出是什么）
车载场景评测集（噪声、方言、多人对话、音乐背景、隧道回声等）

结尾：这不只是更聪明的助手，而是更好的“内容编排器”

MiniCPM-o4.5 的开源，真正刺激行业的点，不是“又一个大模型”，而是它把交互范式往前推了一步：连续理解环境、自然打断、主动入场。对于智能座舱来说，这意味着下一代体验不再靠“更多按钮/更多卡片”，而是靠“更少操作也能完成更多事”。

放在“人工智能在媒体与内容产业”的语境里，我的判断更激进一点：车会成为内容推荐与内容消费的高价值入口，但前提是推荐不再像刷信息流那样“推给你”，而是像副驾驶那样“帮你安排”。当 AI 能听懂车内对话、看懂路况与乘员状态，内容就不只是娱乐，而是行程的一部分。

如果你的团队正在评估车载大模型/智能座舱/内容生态的下一步，我建议从一个问题开始：你的车该在什么时候开口，才能让用户觉得“省心”，而不是“被打扰”？