人工智能在媒体与内容产业•2026年2月12日•By 3L3C

MiniCPM-o4.5开源把全模态AI带入“主动对话”时代。本文从智能座舱与内容产业角度，给出可落地场景、风险与实施路线。

MiniCPM-o4.5全模态AI智能座舱边缘计算车载内容推荐人机交互

Featured image for 主动式全模态AI进车：MiniCPM-o4.5启发智能座舱体验

主动式全模态AI进车：MiniCPM-o4.5启发智能座舱体验

2分钟读完一条新闻很容易，但真正难的是：把“能看、能听、能说、还会主动开口”的全模态AI，落到汽车软件与用户体验里，变成可交付的功能、可量化的体验提升，以及可控的安全与合规。

2026-02-05，MiniMax 将其全模态模型 MiniCPM-o4.5 开源。它的演示很直白：空气炸锅“滴”一声，它主动提醒加热完成；超市货架在变化，它持续跟踪并回答价格；电梯楼层变化，它会在到达时提示。更关键的是，这不是传统“你问我答”，而是连续对话 + 主动介入。

我一直认为，智能座舱很多“像AI”的功能其实只是语音指令的升级版，离“像一个有感知的副驾驶”还差一截。MiniCPM-o4.5 的思路，恰好给了车企和供应链一个清晰方向：把AI从“被动响应的助手”，推进到“实时感知的交互层”。这篇文章会把这条开源新闻放到“人工智能在媒体与内容产业”系列语境里，讲清楚它对车内内容分发、信息提示、驾驶情境交互的具体启发，以及落地时最容易踩的坑。

MiniCPM-o4.5带来的变化：从问答到“持续感知的对话”

核心变化只有一句话：AI不再等待你说完、也不再等待你沉默，它在连续流里判断“现在该不该说话”。

根据公开信息，MiniCPM-o4.5 采用了重构架构，引入全双工（full-duplex）的实时多模态流式机制：视频、音频输入持续处理，输出并行生成，互不阻塞。同时它以约 1 Hz 的频率做语义判断，自主决定是否进入对话，而不是依赖“静音检测”。这让它具备两种座舱里非常稀缺的能力：

自然打断：你可以随时插话，AI也能“边听边说”，更像人与人对话。
主动提醒：当环境出现关键事件（声音、画面、状态变化），AI能主动发起提示。

对汽车而言，这种交互范式的意义远大于“多模态很酷”。因为开车时你最缺的不是信息，而是：在合适的时机，被合适的方式打断一次。

可被引用的一句话：智能座舱的AI体验，80%取决于“何时开口”，而不是“能回答什么”。

为什么这对智能座舱是硬需求：低时延、不断流、能自治

车内场景的苛刻，决定了“云端大模型 + 唤醒词 + 轮询式问答”很难做到丝滑。

1）车内交互是“连续任务”，不是一次性提问

驾驶、导航、媒体播放、电话、乘员对话、孩子哭闹、雨刮与空调噪声……这些是长时间并行的连续信号。传统问答式助手很容易出现三类问题：

错过事件：你没问，它就不说；等你想起再问，已经晚了。
被动打断：只能按“提示框”或“语音播报”硬插入，用户反感。
上下文断裂：对话回合切换成本高，用户懒得继续聊。

而全模态流式机制更像“在旁边持续观察”，适配座舱的连续状态机。

2）边缘侧（Edge）更符合汽车的工程现实

MiniCPM-o4.5 公开信息强调它是 90亿参数（9B）、**边缘原生（edge-native）**模型，并将与首款AI硬件产品“Pinea Pi”开发板结合，走软硬协同路线。

这对车端落地的启发很直接：

低时延：提醒类功能往往要求亚秒级响应（例如变道风险提示、前车急刹后的提示策略）。
弱网可用：隧道、高架、地下停车场，都不能靠稳定上行。
隐私更可控：座舱语音、车内影像属于高敏数据，边缘处理能减少外发。

当然，9B并不意味着“算力随便上”。更现实的路线是：车端小模型负责实时感知与判断，云端大模型负责复杂推理与内容生成，通过策略做分层。

把“全模态主动对话”落到车里：4类最值钱的体验

可落地的座舱功能，通常要满足三点：用户能感知到、频次足够、且不会引发安全/投诉风险。结合MiniCPM-o4.5的能力特征，我更看好下面四类。

1）情境化导航提醒：不多说，但句句有用

导航播报最常见的抱怨是“吵”和“晚”。主动式AI可以把提醒变成情境化的短句：

看见前方车流突然变密 + 听到雨点变大：提示“前方拥堵且路面湿滑，我把跟车距离建议调大一档”。
识别到你频繁看中控、错过路口：在不打断的前提下补一句“下个路口容易错，我会提前两次提醒”。

关键不是多模态本身，而是把提醒阈值、频率、措辞个性化。

2）媒体与内容分发：从“推荐”变成“懂场景的编排”

这篇文章属于“人工智能在媒体与内容产业”系列，我想把话说得更直：车内媒体不缺内容，缺的是在驾驶场景里对内容的安全编排。

全模态主动AI可以做三件事：

内容推荐更像“节目单”：识别到长途高速 + 乘员对话少，就推荐长播客；识别到城市短途 + 频繁变道，就推荐低信息密度的轻音乐。
自动做“音频优先”改写：把资讯类内容转成更适合车内收听的摘要，控制在30-60秒一段。
对内容做动态降噪：当车内出现争吵、孩子哭、导航关键路段时，自动降低媒体音量并延后推送。

这本质上是“内容审核/内容编排”的实时版：不是删内容，而是决定何时播、播多长、用什么形式播。

3）乘员关怀与车内服务：真正的“副驾驶”该做什么

很多座舱助手被吐槽“只会聊天”。主动式AI更适合做低打扰的服务型提示：

识别到后排乘员睡着 + 温度下降：轻声建议调高后排出风。
识别到驾驶员连续打哈欠/眨眼频率异常（需合规与明确授权）：建议最近服务区休息，并把导航切到可停车点。

这里的边界要画清：关怀提示可以主动，但不要“诊断式结论”。

4）车外/车内事件的实时讲述：让AI成为“旁白层”

MiniCPM-o4.5在电梯里能识别楼层变化并提醒。搬到车里，可以变成一种“旁白层”体验：

到达目的地附近时，结合摄像头与地图，简短提示“右前方入口是停车场，地面车位可能紧张”。
识别到临停标志或学校区域，提醒“这里抓拍多，建议慢行”。

这类功能的价值在于：它不是炫技，而是减少驾驶中的微小决策成本。

工程落地最容易翻车的3件事：打断、隐私、可靠性

主动式AI一旦进车，风险也会同步放大。我更建议团队把这三件事当成“第一天就要做”的基建。

1）打断策略：宁可少说，也别自作聪明

把“会主动说话”做成优势，必须依赖一套可配置的打断策略：

优先级：安全 > 导航关键 > 车辆状态 > 媒体/推荐。
冷却时间：同类提醒设冷却（例如5-10分钟），避免碎碎念。
用户可控：给用户一个“一键安静一小时”的明确入口。

经验上，投诉往往不是因为说错，而是因为“说太多”。

2）隐私与合规：车内多模态数据必须“最小化”

座舱摄像头、麦克风、定位、车况数据叠加后，足以构成人的高精度画像。建议默认采用：

边缘侧优先处理（能不出车就不出车）
可解释的授权与提示（哪些数据用于什么功能）
可撤回（随时关闭、删除本地缓存）

对内容产业链（推荐、画像、审核）来说，这也是长期竞争力：谁能用更少的数据达成同等体验，谁就更可持续。

3）可靠性：没有“可降级”，就没有可量产

全模态实时模型再强，也要面对光照、噪声、方言、网络、算力波动。量产系统必须设计好降级路径：

感知不可靠时，退回到传统规则引擎/固定播报
输出不确定时，用更保守的表达或直接沉默
云端不可用时，本地仍能完成关键提醒

一句话：汽车AI最怕的不是“不聪明”，而是“不稳定”。

实施路线图：从内容编排切入，比“全能助手”更现实

如果你在做智能座舱产品规划，我更建议用三步走，而不是一上来就做“全模态万能助手”。

先做“车内媒体的主动编排”：可控、可度量（完播率、跳出率、投诉率、音量回调次数）。
再做“情境化提醒”：从导航与车辆状态切入，建立打断策略与优先级系统。
最后扩展到“连续对话”：把多轮对话与多模态融合起来，形成用户习惯。

你会发现，这条路线和“人工智能在媒体与内容产业”的主线是同一件事：从推荐、创作、画像、审核，走向实时、场景化、可自治的内容体验。车是一个极端场景，但也最能验证这套方法论。

可被引用的一句话：先把“什么时候播什么内容”做好，AI座舱的体感就能立刻上一个台阶。

结尾：开源只是开始，体验的门槛在“策略”而不在“模型”

MiniCPM-o4.5开源释放了一个信号：多模态AI正在从“能看能听能说”，走向“能在流里持续判断、并在合适时机主动开口”。对智能座舱来说，这比单纯堆参数更关键，因为驾驶场景的体验胜负手就在打断策略、低时延、可降级与合规。

如果你正在规划下一代座舱AI，我的建议很明确：把AI当作内容与交互的实时编排层，而不是一个“会聊天的按钮”。当它能把推荐、摘要、播报、提示都放进同一套策略系统里，用户自然会觉得“这车更懂我”。

接下来一年，车内AI最值得讨论的问题或许是：当模型已经能“主动开口”，我们有没有能力让它学会“该沉默的时候就沉默”？