人工智能在科研与创新平台•2025年12月19日•By 3L3C

大模型并非越想越准。用信息论衡量不确定性，像Adaptive Think一样让模型“自信就停”，可显著降低电商推荐、定价、预测的token与延迟成本。

大模型推理推理成本控制电商推荐系统新零售算法企业AI平台

Featured image for 大模型别再“越想越错”：电商AI如何学会该停就停

大模型别再“越想越错”：电商AI如何学会该停就停

双12刚过，不少电商团队会复盘一件事：算力账单涨得比GMV还快。你把更强的推理大模型接进客服、选品、营销文案、风控审核、需求预测，模型也确实“更会想”了——但延迟更高、token更多、偶尔还会“想多了反而答错”。

我越来越确定：很多团队不是输在模型不够强，而是输在推理策略太粗放。把所有问题都按“深度思考模式”跑一遍，像让一个经验丰富的店长对每个顾客都做一份20页调研报告，既浪费，又容易把自己绕进去。

最近一项由中国人民大学与腾讯团队（并有西湖大学合作）提出的研究，从信息论角度给出一个非常实用的答案：**模型并非越想越好，关键是让它学会判断“什么时候该想、什么时候别想”。**他们提出的 Adaptive Think 机制，不需要重新训练就能部署，并在多个基准上做到“更省、更快、还不掉准确率”。这对电商与新零售的实时决策系统，意义很直接。

过度推理不是“更认真”，而是在制造噪声

结论先说在前面：长推理链条在很多任务上带来的不是信息增益，而是噪声累积。

研究团队借鉴香农通信模型，把“推理”看成信息在噪声信道中传递：

技术层面：推理步骤越多，就像不断加冗余比特。冗余少量有用，但超过模型的“推理容量”后，错误会累积。
语义层面：每一步推理理论上都该降低答案不确定性；但现实是，越往后单步信息增益递减，后面很多步骤更像“补字数”。
实践层面：更长推理链意味着更高延迟与算力开销；更糟的是，它并不稳定提升准确率，甚至出现“想得越久、答得越差”。

把它翻译成电商语言：

当你的推荐、定价或风控模型把大量token花在“自我确认”上，系统不是更稳，而是更慢、更贵，并且更容易在噪声里偏航。

尤其在新零售场景里，延迟本身就是损失：推荐晚100ms，首屏曝光就可能少一截；定价晚5分钟，竞争对手已经改价；仓配预测晚一小时，波峰已经过去。

信息论给了我们两把尺：偏到哪了、还值不值得继续想

这项研究最值得企业借鉴的，不是某个“神奇阈值”，而是它提供了两类可操作的度量思路：

1）全局：InfoBias——“越想越偏”的量化指标

**InfoBias（信息偏差）**用互信息的视角衡量：模型的推理链条与“理想推理路径”偏离了多少。偏差越大，意味着模型越可能把自己带到错误方向。

在数学推理数据集上，研究发现一个很刺眼的规律：

错误答案往往伴随更长的推理链
同时伴随更高的 InfoBias

这和电商的线上故障体验很像：系统“解释得越多”，反而越不可信。客服机器人输出一大段，用户并不觉得专业，只觉得“你在绕”。

2）局部：InfoGain——“这一步到底有没有减少不确定性”

**InfoGain（信息增益）**看的是每一步推理是否真的降低了答案空间的熵（不确定性）。

企业落地时可以把它理解成：

这一步是否让候选SKU更集中？
是否让价格区间更收敛？
是否让“高风险订单”的概率更确定？

如果某一步没有让不确定性下降，它就更像是“输出型工作量”，不是“决策型信息”。

一句能写进团队规范的话：推理不以长度论英雄，只看是否持续降低不确定性。

Adaptive Think：让模型“自信够了就收手”

核心机制非常朴素：用熵衡量模型当前的犹豫程度。

模型每完成一步推理，就计算当前答案分布的平均熵
当熵低于阈值 α，说明模型已经足够自信
立即停止推理并输出答案

它带来的好处不是“更会想”，而是“更会停”。我认为这比继续堆更强的推理模型更实际，因为企业最怕两件事：成本不可控和线上延迟不可控。

研究给出的实验结果也很硬：

在 GSM8K 与 AIME2025 等数学任务上，Adaptive Think 在保持准确率的同时，平均 token 消耗减少 40.01%–68.25%
在常识与知识类任务上（例如 CommonsenseQA），有的模型 token 下降超过 80%，准确率几乎不变

把它放到电商：

常识型、规则型问题（比如“是否支持7天无理由”“这件衣服适合冬天吗”）本来就不需要长推理
复杂问题（比如跨品类搭配、库存受限下的多目标补货、长周期需求预测）才值得“多想几步”

把“该停就停”搬进电商与新零售：4个高ROI场景

这类研究之所以值得写进“人工智能在科研与创新平台”系列，是因为它提供了一种可迁移的方法论：用可解释的度量（熵/互信息）指导计算资源的动态分配。这正是企业AI平台化的核心能力之一。

1）个性化推荐：把token花在“犹豫的用户”身上

推荐系统里，很多曝光其实属于“明显点击/明显不点”。真正需要推理的是灰区：

新客冷启动
高客单价、强决策链路（大家电、奢品、保险）
多意图混杂（搜“羽绒服女”但浏览户外装备）

做法可以类比 Adaptive Think：

当候选Top-1与Top-2分数差距足够大（低熵），直接输出
当分布很平（高熵），才触发更重的特征、跨域召回或LLM推理（比如结合用户最近对话、评论摘要）

结果往往是：P99延迟下降、算力更稳定、推荐更敢实时化。

2）动态定价：用信息增益约束“越算越乱”

动态定价模型常见问题是：加入更多约束（竞价、毛利、库存、渠道价盘）后，策略解释越来越复杂，但价格并不更好。

可以借鉴 InfoGain 思路做一个“增益门控”：

每引入一个新约束或新推理步骤，都要让“最优价格区间”更收敛
如果引入后区间反而更发散，就暂停深算，回退到上一层稳定解

这会让定价系统更像一个可控的优化流程，而不是“堆规则+堆推理”的黑箱。

3）仓储与需求预测：噪声控制比模型更大更重要

需求预测的失败往往不是“模型不懂”，而是数据里噪声太多：节假日、直播爆量、断货、促销强度变化。

借鉴 InfoBias 的思路，你可以做一件很平台化的事：

把模型的中间推断（特征贡献、序列注意力、外生变量影响）与“理想信号”（例如促销日历、已知活动强度）对齐
发现偏离过大时，降低推理深度或切换到保守策略（例如加大安全库存、缩短预测跨度）

这里的本质是：先控偏，再谈准。

4）智能客服与导购：让“长解释”成为可选项

客服场景最适合“该停就停”。很多问题用一句话就够：

物流进度
退换货规则
发票与保修

你可以把输出策略做成两段式：

先给低token的直接答案（低熵时）
用户追问或模型不自信（高熵）时，再展开解释、补充依据、给操作路径

这会显著降低成本，并减少“解释越多越露怯”的体验问题。

企业怎么落地：3步把推理效率做成平台能力

多数公司卡在“想做但无从下手”。我建议按平台化思路拆成三步：

第一步：先把“推理成本”变成可观测指标

至少要统一监控三类指标：

平均/分位 token（P50/P95/P99）
延迟（端到端与模型侧）
置信度/不确定性代理指标（熵、logits差距、Top-k间隔等）

看不到就管不了。很多团队花钱买更大模型，却没把token当成本中心来管，这几乎必亏。

第二步：按业务难度分层路由，而不是一刀切

把请求分成三层最实用：

直答层：规则+检索+小模型/短输出
轻推理层：少步推理，快速收敛
深推理层：复杂任务才进来（并设置最大步数与停止条件）

这和 Adaptive Think 的精神一致：把“多想”留给真正需要的地方。

第三步：把阈值α当成“业务旋钮”，而不是论文参数

阈值 α 本质是“准确率 vs 成本/延迟”的权衡开关。

大促、晚高峰：更偏向低延迟与稳定成本，可适当提高停止频率
低峰时段、关键链路（高客单价成交、风控拦截）：更偏向准确率，可允许更深推理

平台化的价值在这里体现：同一套模型，不同场景用不同的停止策略。

该想多久，决定了AI系统的成熟度

这项信息论视角的研究给了企业一个清晰信号：大模型的进步不只靠“更会想”，更靠“知道什么时候别想”。对电商与新零售而言，这不是学术趣味，而是直接关系到推荐实时性、定价响应速度、仓配预测稳定性，以及最现实的——推理成本是否可控。

如果你正在建设企业级AI科研与创新平台，可以把 Adaptive Think 类似的机制当作一个平台能力：对每次推理做不确定性评估，动态决定计算深度。模型更像一个合格的运营同事：该果断时果断，该复核时复核。

留给团队的一个思考：当你的系统输出越来越长时，是因为问题更难了，还是因为它开始不自信、在用“多说”掩盖“没把握”？