云栈社区»论坛 › 技术文档「 Note & Doc 」 › 推荐系统技术演进：从协同过滤、深度学习到大模型的范式转移史 ...

发回帖发新帖

3777 积分	0 好友	490 主题

发消息

推荐系统技术演进：从协同过滤、深度学习到大模型的范式转移史

发表于 2025-12-7 22:14:41 | 查看: 127| 回复: 0

引言：推荐无处不在

当你打开淘宝，首页的商品为什么恰好是你想要的？当你刷抖音，为什么总能看到让你停不下来的视频？当你登录YouTube，那些“为你推荐”的电影为何如此精准？这背后，都是推荐系统在发挥作用。

推荐系统是一类帮助用户从海量信息中发现感兴趣内容的智能算法。它的核心任务是预测用户对特定物品的偏好程度，并据此生成个性化推荐列表。从最初的邮件过滤，到今天无处不在的内容分发、商品推荐、社交匹配，推荐系统已经深度融入我们的数字生活，成为互联网产品不可或缺的基础设施。

推荐系统的重要性体现在多个维度。对用户而言，它解决了信息过载问题——在数以亿计的商品、视频、新闻中快速找到自己需要的那一个；对平台而言，它是用户留存和变现的核心引擎——亚马逊曾公开表示，其约40%的销售额来自推荐系统，而今日头条、抖音等产品更是将推荐算法作为核心竞争力。据Gartner统计，在主流电商平台上，推荐系统贡献的成交额占比普遍在30%-40%之间，在视频平台这一比例更高，YouTube有超过70%的观看时长来自推荐。

从技术演进的角度看，推荐系统走过了三十余年的发展历程，经历了几次关键的范式转移。1992年，Xerox PARC提出的Tapestry系统首次应用协同过滤算法，标志着推荐系统的诞生。此后的十余年间，协同过滤成为主流方法，GroupLens、MovieLens、亚马逊的Item-to-Item协同过滤等系统相继问世。2006年，Netflix Prize竞赛掀起了推荐算法研究的高潮，矩阵分解、集成学习等技术迅速发展，特征工程成为这一时期的关键词。2016年后，深度学习全面进入推荐系统，Wide & Deep、DeepFM、DIN等模型层出不穷，工业界形成了召回-粗排-精排-重排的标准架构，推荐系统进入成熟期。而2023年以来，大语言模型的崛起再次改变了推荐系统的技术图景，生成式推荐、提示学习、检索增强生成等新范式正在涌现。

本文将以时间为轴，系统回顾推荐系统从诞生到今天的完整历程，重点关注每个阶段的核心技术突破、代表性系统案例以及技术演进的内在逻辑。我们将这段历史划分为四个阶段：

起源篇（1992-2005）讲述协同过滤的诞生与早期探索；
发展篇（2006-2015）聚焦Netflix Prize带来的方法论革新和特征工程时代；
成熟篇（2016-2022）剖析深度学习如何重塑推荐系统并推动工业应用的大规模落地；
未来篇（2023-至今）展望大模型时代推荐系统的新方向。

通过这段技术编年史，我们希望帮助读者建立完整的知识体系，理解技术演进背后的驱动力，并对未来趋势形成洞察。

图1：推荐系统三十年演进时间线(1992-2024)

起源篇：协同过滤的黎明(1992-2005)

信息过载与推荐系统的诞生

1990年代初期，互联网正在经历一场静悄的革命。电子邮件、Usenet新闻组、网络论坛迅速普及，但随之而来的是信息过载问题。在Xerox公司的帕罗奥多研究中心（Xerox PARC）——这个诞生了图形用户界面、以太网等众多重要发明的地方——员工们每天收到数百封电子邮件和大量的Usenet消息，无法有效筛选和分类。

这促使研究人员开发实验性系统。他们意识到，仅靠关键词匹配或主题分类并不能有效解决问题——不同用户对同一主题的内容有着差异化的需求，而且内容质量往往难以通过简单的文本匹配来判断。一个关键洞察是：人类的评价和偏好是最可靠的过滤信号。如果能捕捉用户之间的相似性，利用“与你相似的人喜欢什么，你也可能喜欢什么”这一逻辑，就能实现个性化的信息过滤。

Tapestry：协同过滤的首次实践

1992年9月，Xerox PARC的David Goldberg、David Nichols、Brian Oki和Douglas Terry发表了具有里程碑意义的论文《Using Collaborative Filtering to Weave an Information Tapestry》，正式提出了“协同过滤”（Collaborative Filtering）这一概念。论文介绍的Tapestry系统主要用于处理电子邮件、新闻故事和NetNews文章的过滤。

Tapestry的核心思想是让人类参与到过滤过程中。用户可以对文档进行注释（annotation），表明自己认为这篇文章是否有价值。这些注释不仅包括显式的评论，还包括隐式的行为反馈——例如回复一封邮件就表明这封邮件可能很重要。其他用户可以利用这些注释来过滤自己的信息流。例如，用户可以定义这样的过滤器：“显示所有Bob认为有趣或者Alice回复过的邮件”。

Tapestry系统实现了几个重要的创新：

协同过滤的概念：首次明确提出利用用户间的协作来帮助彼此进行信息过滤
显式与隐式反馈：系统同时支持用户主动的注释和自然产生的行为数据
连续查询语义：Tapestry实现了一种新的查询语义，能够在新数据到达时自动重新执行查询，确保过滤结果的实时性

Tapestry的局限性在于它主要针对单一组织内部的小规模场景，且需要用户编写查询表达式，技术门槛较高。但它的意义在于首次在实际系统中证明了协同过滤的可行性，为后续研究指明了方向。

GroupLens：自动化的协同过滤

1994年，明尼苏达大学双城分校计算机系的GroupLens研究组发表了论文《GroupLens: An Open Architecture for Collaborative Filtering of Netnews》，介绍了他们开发的新闻推荐系统GroupLens。这一系统在Tapestry的基础上实现了几个关键突破。

自动化的协同过滤：GroupLens的最大创新是实现了自动化的推荐。用户只需要对新闻文章给出1-5星的评分，系统就能自动计算用户间的相似度，并预测用户对未读文章的评分。这种自动化的方式使得系统可以扩展到更大的用户群体。

算法原理：GroupLens采用了基于用户的协同过滤算法。其核心思想可以用一个简单的公式表示。对于用户u对物品i的评分预测：

其中，N(u)是与u相似的用户集合，sim(u,v)是用户u和v的相似度（通常使用余弦相似度或皮尔逊相关系数），是用户u的平均评分。

跨网络的分布式架构：与Tapestry不同，GroupLens被设计成一个分布式的、跨网络的系统。它采用客户端-服务器架构，多个新闻阅读器可以连接到同一个GroupLens服务器，分享评分数据。这种设计使得系统可以服务于更广泛的用户群体。

GroupLens项目的成功证明了协同过滤可以在大规模、开放网络环境中应用。后续基于GroupLens技术诞生了MovieLens电影推荐系统，该系统至今仍在运行，并为推荐系统研究提供了广泛使用的公开数据集。

图2：协同过滤概念图解——用户通过相似的评分历史相互连接，系统可以预测用户对未知物品的偏好

亚马逊的工业化突破

如果Tapestry和GroupLens证明了协同过滤的可行性，那么亚马逊则将其推向了工业化应用的高峰。2003年，亚马逊的Greg Linden、Brent Smith和Jeremy York在IEEE Internet Computing上发表了著名的论文《Amazon.com Recommendations: Item-to-Item Collaborative Filtering》。这篇论文介绍的Item-to-Item协同过滤算法成为电子商务推荐系统的里程碑。

从用户到物品的范式转变：传统User-Based协同过滤需要在线时计算用户间的相似度，在用户数量庞大时计算复杂度极高。亚马逊的关键创新是转而计算物品间的相似度。对于亚马逊这样的电商平台，商品数量虽然庞大但相对稳定，而用户数量则增长迅速。通过计算物品相似度，可以将最耗时的计算移到离线进行。

算法流程：

离线阶段：遍历所有物品对，根据购买/评分过同一商品的用户集合来计算物品相似度。对于每个物品i，生成一个相似物品表。
在线阶段：当用户u访问时，查找用户历史购买/评分的所有物品，利用预计算的相似物品表快速生成推荐列表。

这种设计使得在线计算复杂度仅与用户的历史行为数量有关，而与用户总数、商品总数无关，实现了真正的工业级可扩展性。

业务影响：亚马逊在论文中指出，Item-to-Item协同过滤能够在毫秒级别生成推荐结果，并且推荐质量优秀。亚马逊公开声称，其约40%的销售额来自推荐系统。这一数字让整个电商行业意识到推荐系统的商业价值，也推动了推荐系统的广泛应用。

对后续影响：Item-to-Item的思想影响深远。它启发研究者们思考如何将最耗时的计算移到离线，这一思路成为后续工业推荐系统架构设计的基本原则。此外，“购买了这个商品的用户还购买了...”这种推荐形式成为电商平台的标配。

基于内容的推荐与混合方法

在协同过滤快速发展的同时，另一条技术路线——基于内容的推荐——也在平行推进。这类方法通过分析物品的属性和用户的历史偏好，推荐与用户过往喜好相似的物品。

例如，在新闻推荐中，可以提取文章的关键词、主题、作者等特征，并根据用户过往阅读的文章构建用户兴趣模型。在音乐推荐中，可以基于歌曲的风格、歌手、旋律特征等进行匹配。

优势：

解决冷启动问题：对于新物品，只要有内容描述就能进行推荐
可解释性强：可以明确解释为什么推荐某个物品

局限：

过度专业化：只能推荐与用户历史相似的物品，缺乏惊喜和新颖性
特征工程复杂：需要针对不同领域设计不同的特征提取方法

有鉴于此，混合推荐系统逐渐成为主流。它们结合协同过滤和基于内容的方法，取长补短。常见的混合策略包括加权组合、级联和特征组合。

这一时期的遗产与挑战

尽管取得了这些进展，早期的推荐系统仍面临许多挑战：

数据稀疏性：大规模系统中的评分矩阵极其稀疏（通常低于1%的密度）
冷启动问题：新用户和新物品缺乏历史数据
可扩展性：User-Based协同过滤的计算复杂度为O（MN）
商业化探索：如何平衡推荐精准度与商业目标

尽管存在诸多挑战，这一时期奠定了推荐系统的理论基础和基本范式。协同过滤的核心思想——利用群体智慧进行个性化推荐——成为后续所有方法的基础。亚马逊的成功也让整个互联网行业看到了推荐系统的商业价值，为后续的爆发式增长铺平了道路。

发展篇：Netflix Prize与特征工程时代(2006-2015)

Netflix Prize：改变游戏规则的竞赛

2006年10月2日，Netflix宣布启动一项全球性竞赛，奖金高达100万美元。竞赛的目标很简单：将Netflix自身的Cinematch推荐算法的预测准确性提高10%以上。这一看似不起眼的数字，却吸引了全球超过48，000支团队参与，来自182个国家。

Netflix提供的训练数据集包含100,480,507个评分，来自480,189个用户对17,770部电影。每个评分是1-5星的整数。竞赛以RMSE（Root Mean Squared Error）作为评价指标，Cinematch的基准RMSE为0.9525，而获奖线是0.8572。

竞赛进程：在近三年的时间里，数百支团队展开了激烈的竞争。前期领先的团队包括BellKor、BigChaos、Pragmatic Theory等。2009年6月26日，由这三个团队合并而成的“BellKor's Pragmatic Chaos”达到了10.05%的提升，触发了最终30天的“最后通报”期。在这个紧张的月份里，另一支团队“The Ensemble”也达到了10.09%的提升。最终，由于提交时间早了20分钟，BellKor团队获得了大奖。

技术突破：Netflix Prize的真正价值不在于奖金，而在于它激发的技术创新。赢奖方案结合了超过100个不同的预测器，包括矩阵分解、近邻域模型、时间动态模型以及梯度提升决策树（GBDT）混合算法。最终测试集RMSE为0.8567，较Cinematch提升10.06%。

矩阵分解：推荐系统的黄金标准

Netflix Prize期间，矩阵分解技术迅速成为推荐系统的核心技术。2009年，Yehuda Koren、Robert Bell和Chris Volinsky在IEEE Computer上发表了著名的综述论文《Matrix Factorization Techniques for Recommender Systems》，系统地介绍了该技术。

基本思想：矩阵分解将用户-物品评分矩阵R分解为两个低维矩阵的积：

其中qi代表物品i在隐藏因子空间中的向量，pu代表用户u的偏好向量。该模型通过最小化正则化平方误差来学习参数：

偏置项模型：为了提高准确性，研究者们进一步引入了偏置项（biases）来抓住用户和物品的系统偏好：

其中u是全局平均评分，bi和bu分别为物品和用户的偏置。这一设计能够捕捉“这部电影普遍受欢迎”或“这个用户总是给高分”等系统性趣味。

图3：矩阵分解可视化——将稀疏的用户-物品评分矩阵分解为两个稠密的低维矩阵。

优势：

处理稀疏数据：通过隐藏因子建模，能够在极其稀疏的评分矩阵上进行预测
可扩展性：训练过程可以高效并行化
灵活性：易于引入各种额外信息（如时间动态、隐式反馈等）

矩阵分解技术在Netflix Prize后成为推荐系统的黄金标准，广泛应用于各种推荐场景。它在处理稀疏数据上的高效性，使其成为早期解决大规模推荐问题的关键算法/数据结构之一。

隐式反馈处理

在实际应用中，显式评分通常稀疏，而隐式反馈则更为丰富。2008年，Yifan Hu、Yehuda Koren和Chris Volinsky发表了论文《Collaborative Filtering for Implicit Feedback Datasets》，为隐式反馈的处理提供了重要理论基础。

隐式反馈的特点：

没有负反馈：用户没有点击不代表不喜欢，可能是没有看到
本质是噪声的：一次点击可能是误操作或好奇
数值代表置信度：重复行为更可靠（如多次购买、长时观看）

模型设计：论文将每个观测分为偏好pui（0或1）和置信度cui两部分。例如，对于观看时长，可以设定：

这种建模方式使得系统能够更好地处理大规模的隐式反馈数据，在工业界得到了广泛应用。

GBDT+LR：特征工程的黄金时代

2014年，Facebook提出的GBDT+LR模型成为点击率预测（CTR）的标准方法，标志着特征工程时代的到来。

核心思想：结合GBDT的特征转换能力和LR的高效训练。GBDT自动挖掘特征交互，将这些交叉特征作为LR的输入，提高模型表达能力。

工作流程：

GBDT训练：在原始特征上训练GBDT模型
特征转换：将每个样本经过GBDT后落入的叶子节点编码为one-hot向量
LR训练：在转换后的特征上训练逻辑回归模型
在线预测：结合GBDT特征和LR预测进行最终输出

这一时期，特征工程成为推荐系统成功的关键。工程师们花费大量时间构造各种特征：用户特征、物品特征、交叉特征、统计特征等。特征质量直接决定了模型效果。

工业界的大规模实践

这一时期，各大互联网公司开始大规模应用推荐系统：

YouTube：2008年开始建立视频推荐系统。早期主要基于视频元数据和观看历史，后期采用协同过滤和内容推荐相结合的方法。

淘宝与京东：中国电商巨头在2008年开始大力发展个性化推荐。淘宝基于用户的浏览、收藏、购买行为，通过协同过滤和内容推荐相结合的方法推荐商品。

社交网络：Facebook在好友推荐、内容分发上广泛应用推荐算法。LinkedIn重点关注职业网络推荐，利用用户的职业经历、技能标签等信息推荐联系人。

技术平台转变：从单机计算到分布式计算框架，再到专门的机器学习库，为大规模推荐系统的实现提供了可能。

这一时期的总结

2006-2015年是推荐系统的黄金十年。Netflix Prize将推荐系统推向了学术和工业界的前沿，矩阵分解、隐式反馈、特征工程等技术成为业界标准。这一时期的成果为后续深度学习时代奠定了坚实基础——许多核心思想（如Embedding、特征交互、多目标优化）在深度学习模型中得到了延续和发展。

同时，这一时期也暴露了传统方法的局限：手工特征工程费时费力、模型表达能力有限、难以处理高维稀疏数据等。这些问题呼唤着新的技术范式，而答案即将在深度学习时代揭晓。

成熟篇：深度学习的全面统治(2016-2022)

Wide & Deep：深度学习的破冰

2016年，Google发表的Wide & Deep Learning模型标志着深度学习正式进入推荐系统领域。这篇发表在RecSys 2016的论文《Wide & Deep Learning for Recommender Systems》成为深度学习推荐的开山之作。

核心思想：结合Wide线性模型的“记忆能力”和Deep神经网络的“泛化能力”。

模型结构： 图4：Wide & Deep模型结构示意

Wide部分：线性模型，接收原始特征和交叉特征，能够快速学习并记忆历史规则
Deep部分：多层神经网络，对稀疏特征进行Embedding后学习复杂的特征组合
联合训练：两部分同时训练，最终结合输出

优势：

自动学习特征交互，减少人工特征工程
兼顾精准匹配和泛化能力
在Google Play应用推荐上取得显著效果提升

Wide & Deep的成功让业界看到了深度学习在推荐系统中的潜力，此后各种深度学习模型层出不穷。

DeepFM：终结FM与深度网络

2017年，华为和哈尔滨工业大学联合提出的DeepFM模型进一步简化了模型架构。与Wide & Deep需要人工设计Wide部分的交叉特征不同，DeepFM实现了端到端的学习。

图5：DeepFM模型结构示意

核心创新：

FM部分：因子分解机（Factorization Machine）自动学习二阶特征交互
Deep部分：深度网络学习高阶特征交互
共享Embedding：两部分共享同一套Embedding层，减少参数量

数学表达：

DeepFM不需要预训练或人工特征工程，在多个数据集上表现优异，成为工业界广泛采用的模型。

DIN：注意力机制的引入

2018年，阿里巴巴提出的Deep Interest Network（DIN）引入了注意力机制，成为推荐系统领域的重要创新。

问题背景：传统方法将用户历史行为简单聚合为固定长度的向量，但实际上用户对不同历史行为的兴趣强度不同。例如，用户在查看一个电子产品时，历史上购买的手机比购买的食品更相关。

核心思想：利用注意力机制，根据当前候选物品动态计算用户各个历史行为的权重，实现个性化的用户表示。

图6：DIN模型结构示意

注意力计算：

其中uc是候选物品的Embedding，B是用户历史行为集合，a(·)是注意力函数，计算各历史行为与当前候选的相关性。

DIN在阿里巴巴的显示广告系统上取得了显著效果，CTR提升超过10%。此后，注意力机制成为推荐系统的标配技术。

YouTube推荐系统的深度学习升级

2016年，Google发表的论文《Deep Neural Networks for YouTube Recommendations》详细介绍了YouTube如何将深度学习应用于视频推荐。这篇论文成为工业界推荐系统设计的经典参考。

两阶段架构：

召回阶段（Candidate Generation）：从百万级视频库中快速筛选出数百个候选视频。使用深度协同过滤模型，将用户和视频映射到同一个Embedding空间，通过相似度搜索找到相关视频。
排序阶段（Ranking）：对候选视频进行精细排序。使用更复杂的深度神经网络，融合更多特征（如视频详情、用户上下文等），预测用户对每个视频的点击概率和观看时长。

工程挑战：

极大规模：处理数亿用户和百万视频
新鲜度：每分钟上传数百小时视频，系统需快速适应
噪声：用户行为数据充满噪声，需要精心建模

效果：YouTube声称，超过70%的观看时长来自推荐系统。这一系统的成功让整个视频行业看到了推荐算法的巨大价值。这种处理海量用户实时行为的技术挑战，与构建高效大数据处理平台的思路一脉相承。

工业界的标准架构：召回-粗排-精排-重排

在深度学习时代，工业界逐渐形成了一套标准的多阶段推荐架构。这一架构平衡了精准度、效率和业务目标。

图7：推荐系统多阶段架构——从亿级候选逐步筛选到数十个最终推荐

召回阶段（Retrieval）：

目标：从亿级全量物品库中快速筛选出数千到数万个候选
方法：多路召回策略，包括协同过滤、热门推荐、个性化推荐、内容匹配等
效率要求：毫秒级响应，通常使用简单高效的算法

粗排阶段（Coarse Ranking）：

目标：从数千候选中筛选出数百个
方法：使用轻量级模型（如三层DNN）进行初步打分
特点：模型相对简单，但比召回阶段更精细

精排阶段（Ranking）：

目标：从数百候选中选出数十个最优结果
方法：使用复杂的深度模型（如Wide & Deep、DeepFM、DIN）进行精细排序
特点：融合大量特征，多目标优化（CTR、CVR、时长等）

重排阶段（Re-ranking）：

目标：基于业务规则和多样性需求调整最终顺序
方法：引入业务规则（如类目打散、新鲜度控制）、多样性优化（DPP、MMR）等
目的：提升用户体验，平衡精准度与多样性

这一架构已成为工业界的事实标准，被广泛应用于电商、视频、新闻、社交等各种推荐场景。

图神经网络的尝试

近年来，图神经网络在推荐系统中也受到关注。用户-物品交互天然形成了一个二部图，GNN能够利用图结构信息提升推荐效果。

代表性工作：

PinSage（Pinterest， 2018）：基于GraphSAGE的大规模GNN推荐系统
LightGCN（2020）：简化的图卷积网络，去除了特征转换和非线性激活
NGCF（2019）：神经图协同过滤，在图上传播嵌入信息

GNN能够捕捉复杂的高阶连接模式，但在大规模工业应用中仍面临计算效率和可扩展性的挑战。

中国互联网的实践

这一时期，中国互联网公司在推荐系统领域取得了世界级的成就：

字节跳动：今日头条和抖音将推荐算法作为产品核心。其推荐系统融合了协同过滤、内容理解、实时特征等多种技术，实现了极高的用户粘性。

阿里巴巴：在电商推荐、广告系统上持续创新，提出DIN、DIEN等多个影响力论文。淘宝的推荐系统处理亿级商品和数亿用户，在双11等大促期间稳定运行。

腾讯：在社交、视频、新闻等多个场景应用推荐算法。微信看一看、腾讯新闻的推荐系统服务于数亿用户。

快手与小红书：分别在短视频和生活方式分享领域取得成功，其推荐算法融合了内容理解、社交关系、用户画像等多个维度。

这一时期的总结

2016-2022年是深度学习在推荐系统中全面统治的时期。从特征工程到特征学习，从DNN到Attention，从单模型到多阶段架构，深度学习带来了性能的飞跃。工业界形成了成熟的方法论和工程体系，推荐系统真正成为互联网产品的基础设施。

然而，这一时期的技术范式也面临着新的挑战：模型越来越复杂但性能提升逐渐边际递减、冷启动问题依然存在、可解释性不足、对长尾内容支持不够等。而大语言模型的崛起，即将为这些问题带来新的解决思路。

未来篇：大模型时代的范式转移(2023-至今)

大语言模型的崛起

2022年末，ChatGPT的发布标志着大语言模型时代的全面到来。LLM强大的语言理解、生成和推理能力，为推荐系统带来了新的可能性。一个重要的转变是：推荐不再只是从固定候选集中排序，而是能够理解用户意图并生成个性化内容。

LLM的优势：

强大的语义理解：能够理解用户查询和物品描述的深层含义
零样本泛化：在没有历史数据的情况下也能进行推荐
可解释性：能够生成自然语言的推荐理由
多模态融合：能够处理文本、图片、视频等多种模态

生成式推荐的新范式

传统推荐系统是“判别式”的——从固定的候选集中选择最佳项。而LLM带来了“生成式”的新范式。

代表性工作：

GenRec（2023）：第一个系统地将推荐任务定义为生成问题，直接生成物品ID或标签
P4R（2024）：通过提示学习（prompt learning）将推荐任务转化为语言生成
Text-to-Rec：将用户查询直接转化为推荐结果

优势与挑战：

优势：更灵活的交互方式、更好的冷启动处理、能够生成解释
挑战：如何融入用户行为信号、如何保证实时性、如何控制计算成本

提示学习与检索增强生成

提示学习在推荐中的应用：通过精心设计的提示，可以将推荐任务转化为语言生成任务。例如：

用户：一个25岁的程序员,喜欢科幻电影和游戏
历史：最近观看了《流浪地球》、《三体》
任务：为该用户推荐三部电影,并解释理由。

检索增强生成（RAG）：RAG将LLM与传统检索系统结合，成为推荐系统的新范式。流程是：

检索：根据用户查询检索相关物品
增强：将检索到的物品信息作为上下文输入LLM
生成：LLM生成个性化的推荐列表和解释

2025年提出的ARAG（代理式RAG）进一步引入了自主代理（agent）机制，能够自主决定检索策略和排序方式。

图8：LLM与传统推荐系统的融合架构——LLM作为中心组件连接特征提取、排序、解释生成等模块

LLM赋能推荐系统的多种方式

根据2024年的综述论文，LLM能够以多种方式赋能推荐系统：

作为特征提取器：LLM可以提取物品和用户的语义特征，输入传统推荐模型。例如，对于电影推荐，LLM可以理解剧情、主题、情感色彩等高层次信息。
作为排序模型：直接使用LLM对候选物品进行排序。通过精心设计的提示，LLM可以理解用户偏好并比较不同物品的适配度。
作为分析和解释器：LLM可以为推荐结果生成自然语言的解释，提高可解释性和用户信任度。例如：“推荐这部电影是因为它与你最近喜欢的科幻类型相符，且有类似的导演风格。”
作为对话式推荐接口：LLM能够实现更自然的对话式推荐交互。用户可以用自然语言表达需求，系统通过多轮对话精准把握用户意图。
作为代理协调器：LLM可以作为智能代理，协调多个推荐模块（如协同过滤、内容推荐、知识图谱），根据情境动态选择最优策略。

工业界的最新实践：从概念到落地

2024年，多家国内外互联网巨头纷纷将生成式推荐从实验室带到生产环境，取得了显著的业务成果。这些实践为行业提供了宝贵的经验和参考。

Meta的HSTU：万亿参数级生成式推荐器

2024年5月，Meta AI发表了一篇里程碑式的论文《Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations》，提出了分层序列转导单元架构。

图9：Meta生成式推荐示意

核心创新：

序列转导范式：将推荐问题重新定义为序列转导任务，类似于大语言模型处理语言。将用户的点击、购买、滚动等行为视为一种“语言”来理解和预测
超大规模：模型参数量达到1.5万亿，与主流LLM相当
高效架构：HSTU比FlashAttention2基于的Transformer快5.3-15.2倍，特别适合长序列处理

业务效果：

在Meta平台的在线A/B测试中实现12.4%的改进
在公开数据集上NDCG指标提升高达65.8%
已在Facebook和Instagram的多个推荐场景中全面部署

这一突破被认为是推荐系统领域的“ChatGPT时刻”，展示了生成式模型在大规模推荐中的巨大潜力。

快手One-Rec：端到端生成式推荐

同样在2024年，快手推出了One-Rec系统，实现了从传统多阶段架构到统一生成模型的全面转型。

图10：One-Rec架构示意

技术特点：

Encoder-Decoder架构：编码器理解用户历史行为序列，解码器自回归地生成一个会话内的推荐内容
稀疏混合专家（MoE）：在不显著增加计算量的前提下扩展模型容量，更好地建模用户多元兴趣
会话级生成：一次性生成整个推荐列表，比逐个生成更能捕捉上下文信息
迭代式偏好对齐：结合DPO直接偏好优化和强化学习，使推荐更符合用户真实偏好

业务成果：

总观看时长提升1.68%，平均观看时长提升6.56%
目前承接快手约25%的QPS（每秒请求量）
运营成本仅为传统方案的10.6%，节约近90%
算力利用率（MFU）训练达23.7%，推理达28.8%，远高于传统模型

One-Rec的成功证明了端到端生成式推荐在短视频场景的可行性，为行业提供了重要的工程化参考。

阿里巴巴：电商搜推广的AI化升级

阿里巴巴通过“大模型+传统模型”的混合架构，系统性地升级其庞大的电商搜推广体系。

关键实践：

LMA广告专属大模型：阿里妈妈研发的广告领域专属大模型，迭代分支涵盖认知、推理和决策，全面改造了召回、排序、创意等核心模块
URM通用召回大模型：整合LLM与电商知识，专注提升推荐系统的召回能力
商品库重构：利用AI Agent理解20亿商品的属性与关系，重构数据结构
多模态能力：在用户端推出“万能搜”、多模态拍照搜索等功能

业务提升：

复杂搜索词的相关性提升约20个百分点
推荐点击率提升10%
广告投资回报率（ROI）显著改善

字节跳动：分层大语言模型HLLM

字节跳动提出的分层大语言模型专注于序列推荐场景。

图11：字节HLLM架构示意

架构设计：

Item LLM：从项目文本描述中提取详细特征，生成简洁而信息丰富的嵌入
User LLM：处理Item LLM生成的嵌入序列，对用户行为建模并预测未来交互
分层设计：通过分离项目和用户建模，降低计算复杂性，高效处理新项目和新用户

主要优势：

解决传统ID-based模型在冷启动场景下表现不佳的问题
更好地建模用户复杂且多样的兴趣
将“豆包”大模型与电商生态深度融合，实现从“种草”到“下单”的全链路打通

亚马逊Rufus：AI购物助手

2024年初，亚马逊推出了Rufus AI购物助手，将生成式AI应用于电商购物场景。

核心能力：

对话式交互：用户可用自然语言提问，如“什么耳机适合运动时使用？”
商品比较：自动总结多个商品的关键差异
评价总结：提供用户评价的AI生成摘要
个性化推荐：基于购物车、心愿单和历史购买提供建议

实践启示：Rufus在处理具体产品查询时表现良好，但在更个性化的或抽象的查询上仍有改进空间。这显示出生成式推荐在电商场景中处于早期阶段，需要持续迭代优化。

其他案例

Netflix Unicorn：统一上下文排序器，可处理搜索、“类似推荐”等多种任务，性能与专用模型相当甚至更优。
YouTube Semantic IDs：采用基于内容的语义ID替代传统哈希ID，更好地支持新视频和长尾内容的推荐。
Etsy统一嵌入：探索搜索和推荐的统一嵌入表示，简化架构并促进任务间的知识迁移。

工业化落地的共同规律

通过分析这些最新实践，我们可以总结出生成式推荐工业化落地的几个共同规律：

混合架构是主流：几乎所有成功案例都采用了“大模型+传统模型”的混合方式，而非完全替换。这既能利用LLM的语义理解能力，又能保持系统的高效性。
端到端生成成为趋势：快手One-Rec和Meta HSTU都展示了用单一生成模型替代多阶段级联架构的可能性，这能显著简化系统复杂度并降低成本。
序列建模是关键：无论是HSTU的序列转导、One-Rec的会话级生成，还是字节HLLM的分层序列模型，都将用户行为序列作为核心建模对象。
效率问题必须解决：成功的案例都在算力效率上取得了突破。HSTU的高效架构、One-Rec的90%的成本节约，都证明了工程优化的重要性。
领域特化比通用LLM更有效：阿里的LMA、字节的HLLM等都是针对推荐场景专门训练的模型，而非直接使用通用LLM。
冷启动问题得到缓解：基于语义的推荐方法能够更好地处理新用户、新物品和长尾内容，这是传统协同过滤难以解决的痛点。

这些实践案例表明，生成式推荐已经从概念阶段进入大规模工业化应用阶段，并在多个领域取得了显著成效。随着技术的持续迭代，我们有理由相信，2025年将会看到更多创新的应用场景和更成熟的解决方案。以人工智能为核心的生成式推荐，正在开启一个全新的范式。

当前挑战与未来方向

尽管LLM带来了巨大潜力，但在推荐系统中的应用仍面临诸多挑战：

技术挑战：

计算成本：LLM的推理成本远高于传统模型，难以应用于高并发场景
实时性：如何将用户的实时行为反馈到LLM中
长尾物品：如何处理没有文本描述的长尾物品
评估体系：如何评估生成式推荐的效果

伦理与安全：

幻觉问题：LLM可能生成不存在的物品或错误信息
偏见放大：LLM可能放大训练数据中的偏见
隐私保护：如何保护用户隐私同时利用LLM

未来方向：

混合架构：结合传统推荐模型的高效和LLM的灵活性
小型化与专用化：开发针对推荐场景优化的小型语言模型
多模态融合：结合文本、图片、视频等多种模态的推荐
个性化LLM：为每个用户调优LLM，实现真正的个性化

大语言模型的引入正在重塑推荐系统的范式。从判别到生成，从静态候选集到动态内容创造，从黑盒决策到可解释交互，推荐系统正在进入一个全新的时代。

结语：技术演进的启示

回顾推荐系统三十余年的发展历程，我们见证了一条清晰的技术演进路径。从1992年Tapestry的实验性尝试，到今天基于LLM的生成式推荐，这一领域经历了多次范式转移。每一次转移都不是突然出现的，而是在解决前一阶段痛点的过程中自然涌现的。

数据与算法的协同进化

推荐系统的发展深刻体现了数据与算法的协同进化。早期，数据稀缺且稀疏，算法相对简单。随着互联网的普及，用户行为数据爆发式增长，但同时也带来了数据稀疏性问题——矩阵分解等技术应运而生。深度学习时代，数据规模进一步扩大，算法也变得更加复杂和强大。而大模型时代，预训练数据的引入使得系统能够利用更广泛的知识，缓解了冷启动等长期问题。

这一过程启示我们：技术的进步往往与数据的积累相互促进。在实际应用中，我们需要根据自身的数据资产选择合适的技术路线，而不是盲目追逐最新技术。

学术与工业的相互促进

推荐系统是学术与工业结合最紧密的领域之一。学术界提供了理论基础和创新算法——矩阵分解、深度学习、注意力机制等都源于学术研究。而工业界则提供了真实场景和大规模数据——YouTube、阿里、字节的实践推动了技术的落地和迭代。

Netflix Prize是这种互动的佳话。它让学术界能够接触到真实的大规模数据，也让工业界看到了学术研究的价值。这种协作模式应该被继续发扬——工业界开放数据和问题，学术界提供创新解法，共同推动领域进步。

技术伦理与社会责任

随着推荐系统的普及，其社会影响也越来越深远。算法偏见、信息茧房、隐私泄漏、用户操纵等问题已经引起广泛关注。这些问题不仅是技术问题，更是伦理问题。

工业界需要在追求商业效果的同时，承担起社会责任。这包括：在算法设计中引入公平性约束、保护用户隐私、提供算法透明度、增加用户对推荐内容的控制权等。在大模型时代，这些问题可能变得更加复杂，需要我们更加谨慎地对待。

对从业者的启示

对于推荐系统的从业者，这段历史提供了几点启示：

打好基础：矩阵分解、特征工程、深度学习等经典技术仍然是业务的基石。新技术往往是在经典方法之上的发展，理解基础才能更好地掌握新技术。
关注工程实现：学术论文中的算法与工业落地之间往往有巨大鸿沟。多阶段架构、工程优化、系统设计等实际问题与算法创新同样重要。
保持学习：这是一个快速变化的领域。从深度学习到大模型，新的技术范式不断涌现。保持对新技术的敏感度，并能够快速学习和适应，是从业者的必备素质。
以用户为中心：技术是手段，用户体验是目的。不管技术如何变化，帮助用户发现感兴趣的内容这一核心使命始终未变。

图12：技术演进的螺旋上升——每一代技术都在前人的肩膀上向前迈进

结语

从协同过滤到大模型，从简单的相似度计算到复杂的神经网络，再到强大的语言模型，推荐系统已经走过了三十余年的旅程。这三十年里，我们见证了技术的进步、工业的发展，也面临着新的挑战和机遇。未来，推荐系统将继续演进。或许下一个重大突破将来自多模态融合，或许将来自个性化LLM，又或许是我们现在还无法预见的方向。但有一点是确定的：只要信息过载问题存在，只要人们需要从海量信息中发现感兴趣的内容，推荐系统就将继续存在并不断进化。

让我们一起期待推荐系统的下一个三十年。

上一篇：AI智能体实战：淘宝数据工程师的复杂任务自动化处理心得与避坑指南
下一篇：Vite 8.0 Beta发布：底层重构为Rolldown，构建性能迎来数量级提升

推荐系统, 协同过滤, 矩阵分解, 深度学习, 大语言模型

推荐系统技术演进：从协同过滤、深度学习到大模型的范式转移史

引言：推荐无处不在

起源篇：协同过滤的黎明(1992-2005)

信息过载与推荐系统的诞生

Tapestry：协同过滤的首次实践

GroupLens：自动化的协同过滤

亚马逊的工业化突破

基于内容的推荐与混合方法

这一时期的遗产与挑战

发展篇：Netflix Prize与特征工程时代(2006-2015)

Netflix Prize：改变游戏规则的竞赛

矩阵分解：推荐系统的黄金标准

隐式反馈处理

GBDT+LR：特征工程的黄金时代

工业界的大规模实践

这一时期的总结

成熟篇：深度学习的全面统治(2016-2022)

Wide & Deep：深度学习的破冰

DeepFM：终结FM与深度网络

DIN：注意力机制的引入

YouTube推荐系统的深度学习升级

工业界的标准架构：召回-粗排-精排-重排

图神经网络的尝试

中国互联网的实践

这一时期的总结

未来篇：大模型时代的范式转移(2023-至今)

大语言模型的崛起

生成式推荐的新范式

提示学习与检索增强生成

LLM赋能推荐系统的多种方式

工业界的最新实践：从概念到落地

Meta的HSTU：万亿参数级生成式推荐器

快手One-Rec：端到端生成式推荐

阿里巴巴：电商搜推广的AI化升级

字节跳动：分层大语言模型HLLM

亚马逊Rufus：AI购物助手

其他案例

工业化落地的共同规律

当前挑战与未来方向

结语：技术演进的启示

数据与算法的协同进化

学术与工业的相互促进

技术伦理与社会责任

对从业者的启示

结语

相关帖子