人工智能在科研与创新平台•2025年12月19日•By 3L3C

Cornserve提出Any-to-Any多模态在线服务新思路：计算图描述+自动规划+分布式运行时，实现3.81×吞吐、5.79×尾延迟改善，适配物流旺季。

多模态模型服务物流与供应链在线推理分布式系统尾延迟

多模态模型上生产线：Cornserve让物流AI更快更稳

年底旺季最怕什么？不是单量涨，而是系统“卡”。同一小时里，客服要读懂用户发来的语音+图片投诉，仓库要用视频识别拥堵点，调度要把天气雷达图、路况、订单文本一起喂给模型做路线重算。你以为难点在模型够不够大，现实往往卡在更朴素的问题：在线服务扛不扛得住这种“输入输出都不固定”的多模态请求。

我见过不少团队把多模态模型做出来了，却在上线时被“异构请求”打得措手不及：有的请求只走文本路径，有的要跑图像编码器+LLM，有的还要生成图片或短视频用于质检复核。结果就是 GPU 利用率忽高忽低、尾延迟飙升、扩容又贵又慢。

最近 arXiv 的 Cornserve（2025-12-19 发布版本）给了一个很工程化、也很适合供应链场景的答案：把 Any-to-Any（任意输入到任意输出）的多模态模型当成计算图来规划与拆分，用“计划器+分布式运行时”把吞吐做高、把尾延迟压低。论文评估显示，它相对现有方案可实现最高 3.81× 吞吐提升与最高 5.79× 尾延迟降低。这类提升，放到物流旺季就是“少买一批卡、少掉几次 SLA”。

一句话：多模态模型能不能在物流生产环境跑起来，关键不只是模型能力，而是服务系统能否处理“请求类型、计算路径、计算规模”的异构性。

Any-to-Any多模态服务，为什么在物流里更难

答案先讲：物流的多模态请求天然多样，而且对实时性与稳定性更苛刻，因此 Any-to-Any 模型一上线就会暴露服务层瓶颈。

在“人工智能在科研与创新平台”这条主线里，我们常谈用 AI 加速分析、加速决策。但物流与供应链把“加速”这件事推到了更极端：

数据形态多：订单文本、电子面单图片、仓内监控视频、司机语音、传感器时序数据。
输出也多：文本解释（为什么延误）、结构化指令（分拣策略）、图片/视频（异常回放）、语音（司机播报）。
请求波峰波谷明显：双12、圣诞节前后、年末盘点；同一模型服务在 10 分钟内负载结构都可能变。
尾延迟比平均更重要：晚 5 秒的路线重算可能导致错过高速入口；晚 10 秒的异常报警会扩大损失。

传统在线推理系统更擅长“单一形态、路径固定”的模型（比如纯文本 LLM 或单一视觉分类）。而 Any-to-Any 模型的问题在于：每个请求走的计算图都可能不同，并且不同组件的计算开销差异极大。一个“只问一句话”的请求和一个“上传 10 秒视频让你找异常”的请求，调度难度完全不是一个量级。

Cornserve做对了什么：把模型当“可规划的计算图”

答案先讲：Cornserve的核心是“描述计算图→自动规划部署→分布式按计划执行”，用系统层方法处理异构性，而不是靠手工调参。

论文把 Any-to-Any 模型拆成由多个异构组件组成的计算图，典型包括：

多模态编码器：把图片/音频/视频变成特征表示
自回归模型：例如 LLM，用于理解、推理、生成文本/指令
多模态生成器：例如扩散类/DiT 组件，用于生成图片、片段等

Cornserve提供两层能力：

自动“规划”：到底要不要拆分、怎么拆

答案先讲：Cornserve 的计划器会根据模型与工作负载特征，决定是否“解耦部署”（disaggregate），以及组件如何映射到不同资源。

在物流系统里，一个常见反模式是把所有组件打包成一个“大服务”，遇到异构请求就开始排队。Cornserve 的思路更像生产线：

如果视频请求占比低但很重，就把视频编码/生成与主文本推理隔离，避免“重活拖慢全局”。
如果文本请求占比高，就让 LLM 路径更稳定、更可批处理（batch），提高 GPU 利用率。
如果某组件是瓶颈（比如多模态生成），就单独扩容该组件，而不是整套服务一起扩。

这对“跨境物流”尤其关键：时区差让高峰更分散，你希望只对热点组件弹性伸缩，而不是整套 GPU 集群反复拉起。

分布式运行时：按计划高效跑起来

答案先讲：规划只是开始，Cornserve 的运行时负责把每个请求沿着正确路径执行，并在不同路径间保持效率与稳定性。

Any-to-Any 的难点是运行时要处理：

请求类型异构：不同输入/输出组合
计算路径异构：同一请求可能跳过某些组件
计算规模异构：同一路径也可能因分辨率、时长、生成步数而变化

Cornserve 的贡献点在于让这种异构性不再把系统调度“拖成手工活”。从论文给出的结果看，它在吞吐与尾延迟上都有数量级可见的改善：最高 3.81× 吞吐提升、最高 5.79× 尾延迟下降。对在线业务来说，尾延迟下降往往比平均延迟更值钱。

放到供应链：三类“多模态+在线”场景最吃香

答案先讲：最适合Any-to-Any服务系统的，是“多输入、多输出、且需要实时响应”的物流链路。

下面三类场景，我认为会最先受益。

1) 仓库异常检测：视频输入+文本/图片输出

仓内摄像头发现拥堵、跌落、违规进入，通常需要：

输入：短视频片段 + 位置/工位信息（文本）
输出：文本告警 + 关键帧截图（图片）

这里的异构点是：大部分时间只要轻量检测；一旦触发，就需要更重的推理与生成（解释、证据图）。用 Cornserve 这类“按路径拆分”的服务方式，能把日常轻量请求保持低延迟，同时把重请求隔离，减少尾延迟外溢。

2) 运输调度与路线重算：文本+图像/雷达图输入+文本输出

很多团队现在把“路线重算”做成纯规则或纯时序模型，但现实里调度员的决策包含大量非结构化信息：事故现场图片、交警通告截图、司机语音描述、天气云图。

Any-to-Any 模型可以把这些信息融合成：

输出：可执行的改线建议（结构化文本/JSON）
输出：给司机的语音播报（音频）或可读解释（文本）

难点在于峰值时刻请求量大、同时每单输入不一样。Cornserve 的吞吐提升可以直接转化为：同样 GPU 预算下支持更多线路与更多仓网节点。

3) 质检与理赔自动化：图片/视频输入+“证据包”输出

理赔场景往往需要模型：

看懂破损照片/装卸视频
结合订单文本与历史记录
输出：责任判定解释 + 证据截图/拼图

这类输出不仅是文本，还要生成或抽取视觉证据。把“证据生成/抽取”从主推理路径里合理拆分，能减少理赔高峰期对全站响应的冲击。

落地建议：用“计算图思维”改造你的AI服务栈

答案先讲：想从Cornserve这类思路受益，不必等你变成系统论文作者；你只要把多模态业务拆成组件、测清负载结构、再做分层扩容，就能明显改善成本与SLA。

我建议按下面 5 步走，工程团队最容易执行。

把业务请求分成 5-10 个“类型桶”：例如“文本问答”“图片+文本质检”“10秒视频异常”“生成证据图”等，并统计各桶占比与峰值 QPS。
画出推理计算图：明确每类请求经过哪些组件（编码器、LLM、生成器、检索、后处理）。别用“一个大服务”糊过去。
标注每个组件的成本画像：GPU 时长、显存、I/O、是否可 batch、是否对尾延迟敏感。
优先拆分两类组件：
- “重而少”的组件（视频编码、图像生成）
- “轻而多”的组件（文本推理、意图识别）
用尾延迟驱动扩容策略：不要只看平均延迟。物流场景里，P95/P99 才是 SLA 的生命线。

如果你所在团队也在做科研与创新平台建设，这套方法还有个附带收益：研究团队更敢于尝试 Any-to-Any 结构，因为上线不再意味着“系统要推倒重来”。研究与工程的耦合成本下降，创新速度自然上去。

常见疑问：Any-to-Any服务是不是只适合“巨头”？

答案先讲：不是。Any-to-Any 的门槛主要在“服务异构性管理”，而这正是Cornserve想解决的。

中型团队最怕的不是做不出模型，而是算力浪费：一体化部署导致 GPU 闲置与排队并存，成本被吃掉。
跨境链路更需要稳定尾延迟：时区叠加让波峰更频繁，拆分与弹性比“堆卡”更划算。
多模态会越来越普遍：仓内摄像、语音对讲、车载设备的数据只会更多，不会更少。

我比较明确的观点是：未来一年，多模态在物流的竞争差异不在“谁能跑起来”，而在“谁能跑得稳、跑得省”。 Cornserve 这类系统工作把焦点从“模型参数”拉回“生产可用性”，这对供应链特别重要。

下一步：把多模态能力变成可规模化的供应链生产力

Cornserve 传递的信号很清楚：Any-to-Any 多模态模型已经进入“必须考虑在线服务工程”的阶段。它用“计算图描述+自动规划+分布式运行时”的方式，把异构请求带来的吞吐与尾延迟问题，拉回到可工程化解决的范畴。

如果你正在规划 2026 年的物流 AI 项目，我建议把问题顺序倒过来：先问**“我们能否稳定服务多模态异构请求？”**再决定上多复杂的模型。这样做不性感，但很管用。

年底订单潮还没过去，供应链的不确定性也不会少。真正能扛住波动的团队，往往不是模型最花哨的那一家，而是把模型服务做得像生产线一样可靠的那一家。你准备把哪条多模态链路先“上生产线”？