游乐游手机版
首页/AI教程/文章详情

天猫推荐系统实时工作原理详解

时间:2026-05-29 09:05
手机天猫App一打开,用户最先看到的就是首页。这个页面上推荐什么商品,几乎直接决定了用户接下来会往哪儿走——是继续逛,还是直接退出。它对承接和分发用户流量、提升购物体验、展现天猫商品的性价比与品质感,都起着关键作用。可以说,首页推荐是天猫用户体验优化的核心战场之一。 1、场景介绍 天猫首页的场景主要

手机天猫App一打开,用户最先看到的就是首页。这个页面上推荐什么商品,几乎直接决定了用户接下来会往哪儿走——是继续逛,还是直接退出。它对承接和分发用户流量、提升购物体验、展现天猫商品的性价比与品质感,都起着关键作用。可以说,首页推荐是天猫用户体验优化的核心战场之一。

1、场景介绍

天猫首页的场景主要分成两大类:大促会场入口和日常频道,具体如图1所示。左图展示的是大促会场入口,包含主会场入口和行业会场入口。主会场入口会为用户推荐7个商品(其中3个在中间动态轮播),以此为主会场引流,UV能达到数千万级别;行业会场入口则通过推荐4个个性化会场和商品,为数万级别的会场引流。右图是日常频道,包括限时抢购、天猫好物、聚划算、天猫闪降和精选频道。首页通过个性化推荐为这些特色频道引流,逐步培养起用户的心智,让大家真正在天猫“逛”起来。

image

图1. 天猫首页场景

过去的首页推荐,很多优化都集中在相关性推荐这一个单一目标上。但现在,推荐系统不仅看重相关性,还在发现性、多样性等维度上做了更深入的优化。“效率和体验并重”,已经成为天猫首页推荐的新目标。Graph Embedding、Transformer、深度学习、知识图谱这些新技术,都已经在天猫首页的推荐系统中成功落地,给场景带来了两位数的点击率提升,同时疲劳度也下降了两位数。

2、推荐框架

天猫首页的个性化推荐系统,可以拆成三个模块:召回、排序和机制。召回模块负责从海量商品素材中,挑出用户可能感兴趣的TopK个候选商品;排序模块专注于CTR预估,判断用户对每个商品的点击概率;机制模块则负责后期的流量调控、体验优化、策略调整,以及最终的商品排序。整个系统就是用Graph Embedding、Transformer、深度学习、知识图谱、用户体验建模这些新技术构建起来的,后续章节会详细拆解其中的关键技术点。

image

图2. 天猫首页推荐系统框架

3、召回

3.1 Ranki2i

Item-CF是目前应用最广的召回算法,原理很简单:根据两个商品被同时点击的频率,算出它们之间的相似度simScore,然后生成i2i表。当用户进来时,通过用户的trigger去查这张表,就能扩展出用户可能会感兴趣的商品。

算法虽简单,但想效果好,还得结合业务场景做调优。比如清除爬虫、刷单这类噪声数据;合理选择计算相似度的时间窗口,引入时间衰减;只考虑同一个类目下的商品对;再配合归一化、截断、打散这些策略,都能有效优化Item-CF的效果。

Ranki2i是对Item-CF的一种改进。它在原有simScore的基础上,再乘上trigger item召回的target item在过去一段时间内的ctr(计算时要做适当的平滑),从而修正i2i的simScore。这样一来,i2i表不仅考虑了商品被同时点击的共现性,还包含了召回商品的点击率信息。

我们基于全网的点击数据和天猫首页场景内的日志来计算Ranki2i表,部署在检索系统Basic Engine上。每个用户访问天猫首页时,从基础特征服务系统ABFS中获取用户的trigger,然后通过查询Ranki2i表来召回用户感兴趣的商品。

经典Item-CF类算法直接根据共现频率计算相似度,在寻找用户点击商品的相似、相关以及搭配商品上优势明显,而且简单高效,所以成了目前应用最广泛的召回算法。但它的局限也很明显:召回结果的候选集只能限定在用户历史行为类目中,而且很难结合商品的Side Information,导致推荐结果的发现性弱、对长尾商品效果差,容易让推荐系统“越推越窄”,制约系统的可持续发展。为了解决这些问题,同时更精准地推荐心仪商品,我们团队提出了S3 Graph Embedding算法和MIND算法。

3.2 S3 Graph Embedding

Graph Embedding是一种把复杂网络投影到低维空间的机器学习技术,典型做法是对网络中的节点做向量化表达,让节点间的向量相似度,能近似反映原始节点在网络结构、近邻关系、Meta信息等多维度上的相似性。

我们团队提出的S3 Graph Embedding算法,利用全网十亿用户对十亿规模商品的序列化点击行为,构建了千亿规模的Graph。通过深度随机游走技术对用户行为进行“虚拟采样”,并引入商品的Side Information来增强泛化学习能力,最终将全网商品进行embedding,统一到同一维度的向量表示。这个向量直接用在Item-CF中计算商品相似度。相比经典Item-CF靠共同点击次数来衡量相似度,这个算法不需要两个商品被同时点击过也能算相似度,而且引入Side Information后,对长尾商品和冷启动商品的处理能力更强。

image

图3. Graph Embedding

基于Behemoth X2Vec平台,利用全网的点击数据和商品Side Information构建全网商品的embedding,以此计算Graph Embedding i2i表,部署在Basic Engine上。每个访问天猫首页的用户,从ABFS中获取trigger,查询Graph Embedding i2i表来召回商品。

3.3 MIND

Multi-Interest Network with Dynamic Routing(MIND)是我们团队提出的一种向量召回方法。它通过构建多个与商品向量同空间的用户兴趣向量,来表示用户的多个兴趣,然后利用这些兴趣向量去检索TopK个相近的商品向量,得到用户可能感兴趣的TopK个商品。

传统的DeepMatch方法,每个用户只生成一个兴趣向量。但实际购物场景中,用户的兴趣是多样的,甚至互相不相关——比如同一个人可能同时想买服装、化妆品和零食。一个长度有限的向量,很难承载这么多兴趣。MIND模型通过Dynamic Routing方法,从用户行为和属性信息中动态学习出多个兴趣向量,更好地捕捉用户多样的兴趣,提升召回的丰富度和准确度。

image

图4. MIND模型

基于实时排序服务RTP和召回引擎Basic Engine(BE),开发了一整套MIND在线服务体系。每个用户访问场景时,先通过部署在RTP中的MIND模型的Multi-interest Extractor Layer,提取出多个兴趣向量,然后在Basic Engine中用aitheta检索引擎召回用户感兴趣的商品。

3.4 Retargeting

Retargeting是一种将用户点击、收藏或加购的商品再次推荐给用户的策略。在电商推荐系统中,用户行为包括浏览、点击、收藏、加购和下单。当然希望每个用户行为最终都能走到转化环节,但现实并非如此。用户产生了下单前的某些上游行为后,往往因为各种原因没有最终成交。但用户当时没下单,不代表他对这个商品不感兴趣。当用户再次来到天猫时,可以根据他之前产生的先验行为,理解并识别他的真实意图,把符合意图的商品再推给他,引导他沿着行为流往下走,最终完成下单。

Retargeting策略更多用于大促促成交的场景,召回量需要严格控制。

3.5 Crowd-based Filtering

上述召回策略都能基于用户历史行为等信息召回商品,但遇到未登录用户或冷启动用户,效果就有限了。Crowd-based Filtering是一种替补策略,基于人群属性来推荐。它把用户按性别、年龄段、收货城市等粗粒度属性划分成若干人群,然后为每个人群从行为数据中挑选出点击率高的TopK个商品,作为该人群感兴趣的商品。

3.6 融合与调制

为了结合不同召回策略的优点,同时提高候选集的多样性和覆盖率,需要把以上各召回策略召回的候选集融合在一起。融合过程中,会根据各策略召回结果的历史表现和流量调控需求,对各算法的召回比例做适当调制。

4、 排序

4.1 排序特征

排序特征在模型效果中起着非常重要的作用。天猫首页推荐系统排序模型的特征,可以抽象为五类:

  • User Profile Features:用户侧的基础特征,如性别、年龄、城市、购买力等。
  • Item Features:商品侧的特征,如商品ID、类目ID、店铺ID、标签等。
  • Context Features:上下文特征,如match_type、位置、页码等。
  • Cross Features:交叉特征,如用户侧特征与商品侧特征的交叉。
  • Sequence Item Features:用户对商品的行为特征,如点击的商品序列、点击的类目序列及相应的Positional Bias。

4.2 排序样本

排序样本的选取同样影响模型效果。样本来自场景产生的曝光和点击日志。对日志做有效的清洗去噪,准实时计算场景活跃用户、黑名单用户,保留对场景有感知的用户,过滤刷单爬虫等作弊行为数据,过滤大促0点下单和红包雨等异常时段的非正常行为日志——这些操作都能提升模型效果。

4.3 排序模型

4.3.1 经典Deep排序模型

Google提出的WDL模型,奠定了现在Deep排序模型的基本框架。DeepFM、PNN、DCN、DeepResNet等模型,把传统离散LR中特征工程的经验搬到了深度学习里,用人工构建的代数式先验帮助模型建立对某种认知模式的预设。DIN等模型则引入了用户行为数据,通过Attention来捕捉用户兴趣的多样性以及与预测目标的局部相关性,对大规模离散用户行为数据进行建模。

4.3.2 BST

类似DeepFM、PNN、DCN、DeepResNet这些模型,更多是在探索如何更好地利用id features和bias features,去逼近它们所能达到的上限,很少去探索如何有效利用seq features。DIN等模型虽然做了seq features建模的尝试,但它是用打分item对seq features做attention后,再做weighted sum pooling。这种方式能很好地表达打分item与用户行为序列的相关性,却无法抽象用户行为序列内部的相关性。

为了解决WDL和DIN等模型的这些问题,受Transformer在NLP任务中处理词序列的启发,我们提出了Beha vior Sequence Transformer(BST)模型。它用Transformer建模用户行为序列,既能学习序列内部的相关性,也能学习序列与打分item之间的相关性。

image


图5. BST模型

BST模型的结构如图5所示。输入包括用户行为序列(含打分item)、用户侧特征、商品侧特征、上下文特征、交叉特征。首先通过Embedding技术将输入转化为低维稠密向量;然后用Transformer学习每个用户行为序列的深度表示,把握序列内部和与打分item之间的相关性;之后把用户侧特征、商品侧特征、上下文特征、交叉特征和Transformer层的输出拼接在一起,得到样本的特征表示向量,再用三层的MLP网络进一步学习更抽象的表达和特征之间的交叉关系;最后通过Sigmoid计算模型输出。

模型用Transformer建模用户行为序列,首先通过Self-Attention学习序列内部和与打分item之间的相关性。考虑到向量的物理意义,用内积来计算attention,两个item越相近,内积越大,attention增益越大。同时采用Multi-Head Attention方式,把序列特征放到多个平行的空间计算,提升模型的容错性和精准度。

image

其中,为投影矩阵,E是用户行为序列与当前打分Q拼接后的Embedding表示,,h是head数。

为了进一步增强网络的非线性表示能力,将Self-Attention的输出再做一层Point-wise Feed-Forward Networks(FFN)。

基于实时排序服务RTP,在GPU集群上部署了量化后的BST模型。对于每一个打分item列表,RTP将其拆分成并行打分,实时预测用户对列表中每个item的点击率。

5、机制

5.1 视觉体验优化

5.1.1 基于知识图谱的标准类目扩展

由于种种因素制约,淘宝天猫的商品类目体系过于细致,不符合推荐场景中用户对商品的主观分类。与知识图谱团队合作,建立了标准类目体系,从语义层面出发,结合场景特点,将相近的叶子类目进行不同程度的聚合,分别应用在购买类目过滤和类目打散时的类目扩展。

image

图6. 标准类目体系

5.1.2 基于图像指纹的相似图片检测系统

淘宝的商品素材浩如烟海,相似的展示图片层出不穷。这种相似往往超越图片所属商品本身的属性,仅靠标题、类目等语义信息已经无法识别。团队研发了相似图片检测系统,从图形本身出发检测商品素材图片之间的相似度。

同图检测系统以CNN作为分类器,识别商品素材图片所属的叶子类目,将最后隐藏层的向量作为图像特征向量,通过向量的相似度计算商品之间的相似度。为了加速计算,使用SimHash算法将图像特征向量进一步转化为高维图像指纹,把计算两个特征向量距离的问题,转化成计算两个图像指纹汉明距离的问题,在精度损失可接受的范围内,大幅降低了计算复杂度。

image

图7. 同图检测系统

5.1.3 多维度打散

天猫首页由大促会场入口和日常频道构成。大促会场入口包括主会场入口和行业会场入口;日常频道包括限时抢购、天猫好物、聚划算、天猫闪降和一些精选频道。每个频道的商品素材独立,存在一定的重复。如果不加限制,各频道之间容易出现相似的推荐结果。在“寸土寸金”的首页,这无疑是一种浪费,也会伤害用户体验,不利于培养导购心智。为此,设计了多种打散方案,从多个维度(商品/标准类目/品牌/会场/相似图片等)对首页各频道的推荐素材进行联合打散,让推荐结果更具多样性。

5.2 模板式实时曝光过滤

由于天猫首页处在手机App的首屏,用户每次打开App都会获得曝光,其中包含很多无效曝光,比如用户一进来就直接进入搜索频道、购物车,或者大促期间抢红包雨、抢券。这些无效曝光中,用户对场景根本没心智。常见的做法是把伪曝光的商品记录下来做实时曝光过滤,但这对首页这种无效曝光率很高的场景来说“太严格”了,效果反而会打折扣。为此,设计了模板式实时曝光过滤的方法。一次推荐给用户出多个模板,并记录用户上次看到的第i个模板,本次就展现第i+1个模板。如果用户产生新的行为,模板的推荐内容也会随之更新。

5.3 用户及类目个性化的购买过滤

“买了还推”是过去推荐系统经常被吐槽的问题。要解决它,就需要对用户购买的类目做合理过滤。不过,每个叶子类目的购买周期不同,不同用户对类目的购买周期也不同,所以购买过滤还要关注不同用户对不同类目的个性化需求。购买过滤是所有推荐场景都会面对的基础问题,与工程团队合作推出了统一的全域购买过滤服务。为每个类目定制购买屏蔽周期,根据用户最近一段时间内的购买行为,维护一个实时的购买过滤类目。同时,如果用户在屏蔽周期内又主动在该类目上发生了多次点击,说明用户仍然对这个类目感兴趣、有购买可能,该类目就会被“解禁”。天猫首页接入购买过滤服务后,“买了还推”的问题得到了很大改善。

6、总结

本文从算法角度介绍了天猫首页的推荐系统,从召回、排序、推荐机制三个方面,讲解了如何利用Graph Embedding、Transformer、深度学习、知识图谱、用户体验建模等多项技术构建先进的推荐系统。当然,完整的推荐系统是一个复杂系统,构建一个“懂你”的天猫首页,离不开产品、工程、运营等各个团队的合作和帮助。在个性化推荐的道路上,我们会继续积累和打磨,深耕技术,创造更好的个性化服务。个性化推荐的未来,值得期待。

来源:https://developer.aliyun.com/article/704401
上一篇校园运动会宣传稿完美范文:激发热情与参与 下一篇基于阿里云ICE的短视频批量制作产线技术实践
本站内容用于信息整理与展示,如有侵权或内容问题请及时联系处理。

相关推荐

补充同频道和同主题内容,方便继续浏览更多相关内容。

同类最新

继续查看同栏目最近更新的文章。

更多
GPT Workspace通过GPT-5强化Google Workspace,文档表格邮件创作效率与智能化提升
AI教程 · 2026-05-29

GPT Workspace通过GPT-5强化Google Workspace,文档表格邮件创作效率与智能化提升

GPT Workspace 产品介绍:GPT-5 如何增强 Google Workspace 工作效率 如果你每天都在使用 Google Workspace 进行文档撰写、表格处理、邮件沟通和演示制作,一定深有体会:大量重复性的办公任务耗费了宝贵的时间。现在,GPT Workspace 将 GPT-

AI助手提升年终总结与周报效率的精准营销策略
AI教程 · 2026-05-29

AI助手提升年终总结与周报效率的精准营销策略

适合需求:在信息爆炸的时代,企业所承受的竞争压力几乎覆盖了所有维度,其中营销领域尤为令人困扰。无论是撰写年终总结还是生成周报,精准的营销策略已成为不可或缺的需求——没有谁愿意在庞杂的数据中迷失方向。当我们复盘营销活动时,总会思考:过去哪些数字营销策略真正发挥了效果?哪些内容营销策略有待改进?然而实际

Afri Studio 非洲创意工作室
AI教程 · 2026-05-29

Afri Studio 非洲创意工作室

Afri Studio是什么先来聊聊Afri Studio——它是Afri AI团队推出的一款AI媒体创作工作室,目标很明确:把原本高高在上的智能技术拉下神坛,让普通用户也能轻松生成高质量的文本、图像、音频等内容。换句话说,这是一个面向内容创作者、博主、营销人员、艺术家的“AI工具箱”,帮你高效搞定

Geniea专注Midjourney提示词优化提升创意生成效率
AI教程 · 2026-05-29

Geniea专注Midjourney提示词优化提升创意生成效率

Geniea产品详解:Midjourney提示优化工具Geniea是一款专注于Midjourney提示词优化的智能平台,致力于帮助创作者快速生成高质量且富有创意的提示方案。无论您需要电影镜头、食品摄影还是汽车广告等场景的提示词,只需输入简单指令,系统便会自动输出优化后的提示文本,大幅提升创作效率。提

幼儿园大班毕业典礼方案PPT AI轻松制作精彩回顾
AI教程 · 2026-05-29

幼儿园大班毕业典礼方案PPT AI轻松制作精彩回顾

使用情景 每年毕业季来临之际,幼儿园大班毕业典礼的筹备工作,总是牵动着众多老师、家长和孩子们的心弦。这不仅仅是一场简单的活动,更是孩子们人生中首个重要的成长仪式,标志着他们告别幼儿时光、迈向新阶段的里程碑。对于家长而言,这也是一次充满感怀的“毕业”,意味着一段陪伴旅程的暂时落幕。 如何让这场典礼既温