大模型并非越想越准。用信息论衡量不确定性,像Adaptive Think一样让模型“自信就停”,可显著降低电商推荐、定价、预测的token与延迟成本。

大模型别再“越想越错”:电商AI如何学会该停就停
双12刚过,不少电商团队会复盘一件事:算力账单涨得比GMV还快。你把更强的推理大模型接进客服、选品、营销文案、风控审核、需求预测,模型也确实“更会想”了——但延迟更高、token更多、偶尔还会“想多了反而答错”。
我越来越确定:很多团队不是输在模型不够强,而是输在推理策略太粗放。把所有问题都按“深度思考模式”跑一遍,像让一个经验丰富的店长对每个顾客都做一份20页调研报告,既浪费,又容易把自己绕进去。
最近一项由中国人民大学与腾讯团队(并有西湖大学合作)提出的研究,从信息论角度给出一个非常实用的答案:**模型并非越想越好,关键是让它学会判断“什么时候该想、什么时候别想”。**他们提出的 Adaptive Think 机制,不需要重新训练就能部署,并在多个基准上做到“更省、更快、还不掉准确率”。这对电商与新零售的实时决策系统,意义很直接。
过度推理不是“更认真”,而是在制造噪声
结论先说在前面:长推理链条在很多任务上带来的不是信息增益,而是噪声累积。
研究团队借鉴香农通信模型,把“推理”看成信息在噪声信道中传递:
- 技术层面:推理步骤越多,就像不断加冗余比特。冗余少量有用,但超过模型的“推理容量”后,错误会累积。
- 语义层面:每一步推理理论上都该降低答案不确定性;但现实是,越往后单步信息增益递减,后面很多步骤更像“补字数”。
- 实践层面:更长推理链意味着更高延迟与算力开销;更糟的是,它并不稳定提升准确率,甚至出现“想得越久、答得越差”。
把它翻译成电商语言:
当你的推荐、定价或风控模型把大量token花在“自我确认”上,系统不是更稳,而是更慢、更贵,并且更容易在噪声里偏航。
尤其在新零售场景里,延迟本身就是损失:推荐晚100ms,首屏曝光就可能少一截;定价晚5分钟,竞争对手已经改价;仓配预测晚一小时,波峰已经过去。
信息论给了我们两把尺:偏到哪了、还值不值得继续想
这项研究最值得企业借鉴的,不是某个“神奇阈值”,而是它提供了两类可操作的度量思路:
1)全局:InfoBias——“越想越偏”的量化指标
**InfoBias(信息偏差)**用互信息的视角衡量:模型的推理链条与“理想推理路径”偏离了多少。偏差越大,意味着模型越可能把自己带到错误方向。
在数学推理数据集上,研究发现一个很刺眼的规律:
- 错误答案往往伴随更长的推理链
- 同时伴随更高的 InfoBias
这和电商的线上故障体验很像:系统“解释得越多”,反而越不可信。客服机器人输出一大段,用户并不觉得专业,只觉得“你在绕”。
2)局部:InfoGain——“这一步到底有没有减少不确定性”
**InfoGain(信息增益)**看的是每一步推理是否真的降低了答案空间的熵(不确定性)。
企业落地时可以把它理解成:
- 这一步是否让候选SKU更集中?
- 是否让价格区间更收敛?
- 是否让“高风险订单”的概率更确定?
如果某一步没有让不确定性下降,它就更像是“输出型工作量”,不是“决策型信息”。
一句能写进团队规范的话:推理不以长度论英雄,只看是否持续降低不确定性。
Adaptive Think:让模型“自信够了就收手”
核心机制非常朴素:用熵衡量模型当前的犹豫程度。
- 模型每完成一步推理,就计算当前答案分布的平均熵
- 当熵低于阈值
α,说明模型已经足够自信 - 立即停止推理并输出答案
它带来的好处不是“更会想”,而是“更会停”。我认为这比继续堆更强的推理模型更实际,因为企业最怕两件事:成本不可控和线上延迟不可控。
研究给出的实验结果也很硬:
- 在 GSM8K 与 AIME2025 等数学任务上,
Adaptive Think在保持准确率的同时,平均 token 消耗减少 40.01%–68.25% - 在常识与知识类任务上(例如 CommonsenseQA),有的模型 token 下降超过 80%,准确率几乎不变
把它放到电商:
- 常识型、规则型问题(比如“是否支持7天无理由”“这件衣服适合冬天吗”)本来就不需要长推理
- 复杂问题(比如跨品类搭配、库存受限下的多目标补货、长周期需求预测)才值得“多想几步”
把“该停就停”搬进电商与新零售:4个高ROI场景
这类研究之所以值得写进“人工智能在科研与创新平台”系列,是因为它提供了一种可迁移的方法论:用可解释的度量(熵/互信息)指导计算资源的动态分配。这正是企业AI平台化的核心能力之一。
1)个性化推荐:把token花在“犹豫的用户”身上
推荐系统里,很多曝光其实属于“明显点击/明显不点”。真正需要推理的是灰区:
- 新客冷启动
- 高客单价、强决策链路(大家电、奢品、保险)
- 多意图混杂(搜“羽绒服 女”但浏览户外装备)
做法可以类比 Adaptive Think:
- 当候选Top-1与Top-2分数差距足够大(低熵),直接输出
- 当分布很平(高熵),才触发更重的特征、跨域召回或LLM推理(比如结合用户最近对话、评论摘要)
结果往往是:P99延迟下降、算力更稳定、推荐更敢实时化。
2)动态定价:用信息增益约束“越算越乱”
动态定价模型常见问题是:加入更多约束(竞价、毛利、库存、渠道价盘)后,策略解释越来越复杂,但价格并不更好。
可以借鉴 InfoGain 思路做一个“增益门控”:
- 每引入一个新约束或新推理步骤,都要让“最优价格区间”更收敛
- 如果引入后区间反而更发散,就暂停深算,回退到上一层稳定解
这会让定价系统更像一个可控的优化流程,而不是“堆规则+堆推理”的黑箱。
3)仓储与需求预测:噪声控制比模型更大更重要
需求预测的失败往往不是“模型不懂”,而是数据里噪声太多:节假日、直播爆量、断货、促销强度变化。
借鉴 InfoBias 的思路,你可以做一件很平台化的事:
- 把模型的中间推断(特征贡献、序列注意力、外生变量影响)与“理想信号”(例如促销日历、已知活动强度)对齐
- 发现偏离过大时,降低推理深度或切换到保守策略(例如加大安全库存、缩短预测跨度)
这里的本质是:先控偏,再谈准。
4)智能客服与导购:让“长解释”成为可选项
客服场景最适合“该停就停”。很多问题用一句话就够:
- 物流进度
- 退换货规则
- 发票与保修
你可以把输出策略做成两段式:
- 先给低token的直接答案(低熵时)
- 用户追问或模型不自信(高熵)时,再展开解释、补充依据、给操作路径
这会显著降低成本,并减少“解释越多越露怯”的体验问题。
企业怎么落地:3步把推理效率做成平台能力
多数公司卡在“想做但无从下手”。我建议按平台化思路拆成三步:
第一步:先把“推理成本”变成可观测指标
至少要统一监控三类指标:
- 平均/分位 token(P50/P95/P99)
- 延迟(端到端与模型侧)
- 置信度/不确定性代理指标(熵、logits差距、Top-k间隔等)
看不到就管不了。很多团队花钱买更大模型,却没把token当成本中心来管,这几乎必亏。
第二步:按业务难度分层路由,而不是一刀切
把请求分成三层最实用:
- 直答层:规则+检索+小模型/短输出
- 轻推理层:少步推理,快速收敛
- 深推理层:复杂任务才进来(并设置最大步数与停止条件)
这和 Adaptive Think 的精神一致:把“多想”留给真正需要的地方。
第三步:把阈值α当成“业务旋钮”,而不是论文参数
阈值 α 本质是“准确率 vs 成本/延迟”的权衡开关。
- 大促、晚高峰:更偏向低延迟与稳定成本,可适当提高停止频率
- 低峰时段、关键链路(高客单价成交、风控拦截):更偏向准确率,可允许更深推理
平台化的价值在这里体现:同一套模型,不同场景用不同的停止策略。
该想多久,决定了AI系统的成熟度
这项信息论视角的研究给了企业一个清晰信号:大模型的进步不只靠“更会想”,更靠“知道什么时候别想”。对电商与新零售而言,这不是学术趣味,而是直接关系到推荐实时性、定价响应速度、仓配预测稳定性,以及最现实的——推理成本是否可控。
如果你正在建设企业级AI科研与创新平台,可以把 Adaptive Think 类似的机制当作一个平台能力:对每次推理做不确定性评估,动态决定计算深度。模型更像一个合格的运营同事:该果断时果断,该复核时复核。
留给团队的一个思考:当你的系统输出越来越长时,是因为问题更难了,还是因为它开始不自信、在用“多说”掩盖“没把握”?