腾讯新设AI Infra并由姚顺雨统筹大模型与底座,信号很明确:电商大模型竞争转向“平台化交付”。本文拆解AI Infra、数据评测与智能体在零售落地的实操路径。

腾讯设AI Infra+姚顺雨上任:电商大模型落地提速指南
12 月往往是电商和新零售最“讲效率”的月份:双旦大促、年终清库存、来年备货预判,任何一次预测偏差都会被放大成成本。这个时候再回看 2025-12-17 的一条行业动态——腾讯升级大模型研发架构,新设 AI Infra 部、AI Data 部、数据计算平台部,并由姚顺雨出任“CEO/总裁办公室”首席 AI 科学家、同时兼任 AI Infra 部与大语言模型部负责人——你会发现这并不是“人事新闻”,而是一张清晰的路线图:大模型要在业务里跑起来,先把训练、推理、数据与评测的底座补齐。
我在不少电商团队里见过一种典型卡点:POC(概念验证)阶段效果不错,一旦要上生产,就会被“成本、延迟、稳定性、数据闭环、评测口径”反复拉扯。于是项目变成了“演示型智能”,离“赚钱型智能”差一步,却是最难的一步。腾讯这次的组织升级,把这一步摆到了台面上。
本文放在《人工智能在科研与创新平台》系列里来聊:**为什么 AI Infra 与数据/评测体系,会成为电商与新零售大模型落地的胜负手?**以及姚顺雨在智能体(Agent)方向的代表性方法(ToT、ReAct、CoALA)对电商复杂决策意味着什么。
组织升级背后的信号:大模型竞争从“模型”转向“体系”
结论先说:2026 年电商大模型的主战场,不在“谁的参数更大”,而在“谁能把训练-推理-数据-评测-迭代做成可复制的生产线”。
腾讯的新架构很像把“科研平台化”思路移植到企业:
- AI Infra 部:做分布式训练、高性能推理服务等“算力与系统”能力。
- AI Data 部:做数据与评测体系建设,决定模型到底学到什么、好不好。
- 数据计算平台部:做大数据与机器学习的数据智能融合平台,负责“把数据变成可用燃料”。
这套分工对电商团队特别有启发:电商的 AI 项目天然跨域——推荐、搜索、客服、营销、供应链、仓配、风控,每条线都要用模型,却又不能各自为政。把底座做成平台,业务只负责“把问题讲清楚、把指标定清楚”,剩下交给平台规模化交付,这是走出“试点依赖英雄”的唯一办法。
可被引用的一句话:电商大模型落地的核心不是“训练一个模型”,而是“建立一个能持续迭代的模型工厂”。
AI Infra 为何决定电商 ROI:延迟、成本、稳定性是硬门槛
一句话回答:电商场景对推理服务的要求接近“交易系统”,不是“实验室 Demo”。
1)延迟:推荐和搜索是“毫秒级业务”
推荐/排序/搜索改写的不是页面文案,而是流量分配。大促时峰值并发下,模型推理延迟每增加一点,都会被放大成:
- 首页信息流刷新慢,跳失率上升
- 搜索响应慢,用户转去竞品或直接放弃
- 实时重排来不及触发,个性化退化成“千人一面”
因此 AI Infra 的价值非常具体:更低延迟、更高吞吐、更平滑的弹性扩缩容,直接决定“能不能全量”。能全量,才谈得上 ROI。
2)成本:大模型不贵在训练,贵在“每天都在推理”
很多公司算账只算训练一次的成本,却忽略了电商“每一次曝光都可能触发推理”。一旦你的应用从“每小时调用 1 万次”变成“每秒调用 1 万次”,优化方向就变了:
- 量化、蒸馏、KV Cache、并行策略等是否标准化
- 多模型路由:简单问题走小模型,复杂问题再升级
- 统一的特征服务与缓存策略,减少重复计算
AI Infra 部的存在,本质上是在做**“把推理变成可控的工业成本”**。
3)稳定性与可观测:没有监控的大模型=不可运营的黑箱
电商运营不是一次性发布,而是“日更”甚至“时更”。你需要知道:
- 这次促销期间,模型为何突然偏向某类商品?
- 某个类目转化掉了,是模型漂移还是库存结构变化?
- 客服 Agent 的拒答率上升,是知识库缺口还是推理故障?
这要求推理平台具备完善的可观测能力(延迟、错误率、命中率、版本灰度、流量分桶),以及快速回滚机制。没有这些,业务只敢小流量试水,永远上不了“主链路”。
从 AI Data 到评测体系:电商最缺的不是数据量,而是“可用数据”
直接答案:电商的数据多到溢出,但能直接用于大模型训练与评测的数据,往往不足 10%。(这是我在项目里常见的体感区间,具体比例随业务成熟度变化。)
腾讯设立 AI Data 部与数据计算平台部的意义在于:把“数据治理”从后台工作,提升为大模型的核心竞争力。
1)电商数据的三大难点
- 噪声大:标题党、刷单、异常评论、灰产行为会污染训练分布。
- 口径乱:同一个“转化率/复购”在不同团队有不同定义,评测无法对齐。
- 时效强:爆款、季节性、地域性变化快,数据过期比你想象得更快。
2)一套能落地的“数据-评测闭环”怎么建
如果你负责电商/新零售的 AI 平台,我建议按下面顺序做(这是“科研平台化”的工作方式):
- 定义任务与指标树:业务指标(GMV、转化、客单)拆到可评测的模型指标(NDCG、Recall、AHT、解决率等)。
- 建立黄金评测集:每个核心场景保留一套人工审核的高质量样本集,并固定版本,保证可比性。
- 上线前红线测试:合规、偏见、幻觉、越权动作、风控规则等设为“阻断项”。
- 上线后漂移监控:监测输入分布、输出分布、关键业务指标联动,触发再训练或策略回退。
可被引用的一句话:对电商大模型来说,评测体系不是“验收表”,而是“方向盘”。
姚顺雨的智能体方法,对电商“复杂决策”更友好
先给结论:电商最值钱的环节不是“回答问题”,而是“在约束条件下做连续决策”。智能体方法正对这个痛点。
姚顺雨在智能体方向的代表性工作包括 ToT(思维树)、ReAct(推理-行动)、CoALA(模块化认知架构),以及参与构建的软件工程基准与电商模拟环境。把它们映射到电商,你会看到三个可落地的方向。
1)ToT:把“运营策略”变成可搜索的决策树
电商里很多问题不是单步推理,而是多目标权衡:
- 既要毛利,也要动销,还要控制退货率
- 既要提升转化,也要避免过度打扰导致的取关
ToT 的价值在于:让模型生成多条候选策略路径,并用评分函数选最优。落到业务上,就是把“拍脑袋选方案”变成“可回放、可解释、可复盘”的策略搜索。
2)ReAct:让 Agent 边想边做,适合“数据实时变化”的零售
新零售的现实是:库存、价格、物流、门店人流都在变。ReAct 模式的关键是“推理与行动交替”,适用于:
- 智能补货:先查询门店库存与在途,再决定是否调拨/下单
- 动态定价:先读取竞品价格与库存,再给出调价建议并验证约束
- 智能客服+工单:先识别意图,再调用订单系统、优惠券系统、物流系统完成闭环
这里的重点不是“会说”,而是“敢做且做对”。因此必须与 AI Infra、权限系统、审计系统绑定。
3)CoALA:把电商 Agent 拆成模块,便于工程化与合规
企业里最怕“端到端黑箱”。模块化架构能把 Agent 拆成:
- 记忆(用户偏好、上下文、会话历史)
- 计划(目标与约束)
- 工具(检索、下单、退款、调拨等)
- 反思(自检、纠错、风险提示)
拆开之后,你可以针对不同模块做测试、灰度、权限隔离与合规审计。对“要出结果、更要可控”的零售企业,这是工程上更稳的路线。
2026 电商团队的落地清单:从“做模型”到“做平台”
如果你正准备在明年把大模型从试点推进到核心链路,我建议用下面这份清单做自查。它不花哨,但能救命。
1)先把三条主链路打通
- 训练链路:数据版本化 → 训练可复现 → 模型注册与溯源
- 推理链路:灰度发布 → A/B 分桶 → 可观测与回滚
- 评测链路:离线评测 → 压测与红线测试 → 上线后漂移监控
2)选 3 个“高频+高价值+可闭环”的场景先做深
我更推荐这些:
- 智能客服 Agent(含工单流转):能直接用解决率、AHT、人工转接率衡量。
- 导购/内容生成(与库存/价格联动):能用转化率、加购率、退货率衡量。
- 需求预测+补货建议(门店/仓):能用缺货率、周转天数、报废率衡量。
场景选择的原则是:**必须能把“模型输出”转成“系统动作”,并形成数据回流。**只做文案生成,往往停留在“热闹”。
3)把合规当成“第一天就要做”的工程
电商与新零售涉及个人信息、交易数据、价格策略与平台治理。我的经验是:越早把合规与风控融进平台,越不容易在规模化时翻车。至少要具备:
- 数据脱敏与访问审计
- 工具调用权限分级(只读/建议/可执行)
- 关键动作的人工确认与双人复核机制
写在最后:AI 科研平台化,正在改写零售的“效率上限”
腾讯这次把 AI Infra、AI Data、数据计算平台与大语言模型放到更清晰的体系里,再加上姚顺雨这样长期深耕智能体方向的人来牵引,释放的信号很明确:大模型竞争进入“平台工程 + 智能体应用”的双赛道。
对电商和新零售团队来说,这恰好与《人工智能在科研与创新平台》系列的主线呼应:把 AI 能力做成“可复用的基础设施”,让业务像调用实验平台一样调用模型能力,持续迭代,而不是一次性项目。
如果你正在规划 2026 的大模型路线,我建议先问团队一个尖锐的问题:**我们缺的是更强的模型,还是一套能让模型稳定赚钱的 Infra、数据与评测体系?**答案会决定你明年的投入方向,也决定你能不能在下一次大促前,把 AI 变成真正的生产力。