在QCon旧金山2025大会上,LinkedIn工程经理Nishant Lakshmikanth深入分享了如何系统性地重构其传统批处理推荐架构,实现实时个性化推荐的同时显著提升运营效率。
原有架构负责"可能认识的人"和"关注的人"等核心产品功能,存在三个主要瓶颈:数据更新延迟高、响应延迟大、计算成本高昂。在旧系统中,推荐结果会为全量用户预先计算,无论用户是否登录都会产生计算开销,导致大量资源浪费和结果过时。一次流水线故障可能导致数天无法更新,直接影响核心业务指标。
LinkedIn将这次重大迁移规划为四个架构阶段的迭代过程:
- 离线评分:起点是繁重的批量计算,高延迟且需要大量预计算存储
- 近线评分:中间阶段,提供每小时或每日级的新鲜度
- 在线评分:关键转折点,根据用户当前会话和意图实时运行模型推理
- 远程评分:最终阶段,将繁重的模型评分迁移到高性能云环境
这一框架支持了两个并行迁移:离线到在线评分、近线到在线新鲜度,将重点从预计算转向动态执行。
成功的关键在于架构解耦:将候选生成流水线与在线评分服务分离。
动态候选生成:候选生成不再依赖静态列表,转而使用实时搜索索引查询、基于嵌入的检索解决新用户和内容冷启动问题,并利用即时用户上下文动态获取相关候选集。
智能评分:在线评分服务使用上下文丰富的特征存储,支持图神经网络和基于Transformer的模型进行精确排序。团队实施了双向建模,从发送者和接收者双视角评估连接关系,获得了更优效果。
关于大语言模型的应用,Lakshmikanth强调了成本与性能的权衡:由于计算开销较高,大语言模型主要应用于候选生成和后排序流程,在不过度影响实时核心排序环节的前提下增加价值。
实时架构迁移带来了可量化的收益:
- 成本优化:清理批处理依赖后,离线计算和存储成本降低超90%,部分核心流程总计算成本下降达68%
- 会话级新鲜度:系统现可实时响应用户点击、搜索和个人资料浏览行为,会员参与度和连接率显著提升
- 平台灵活性:模块化设计简化了维护流程,支持快速模型实验,实现前沿模型的敏捷部署和平滑回滚
这些架构原则现已应用于LinkedIn职位推荐和视频推荐等其他关键场景,持续提升平台的服务能力。
|