找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5487

积分

0

好友

740

主题
发表于 3 小时前 | 查看: 3| 回复: 0

在供应链领域,准确的需求预测是一切计划的源头。传统方法长期受困于多变量耦合、非平稳波动和多模态数据融合的三重挑战,而大型深度学习模型又因体积庞大难以在边缘设备部署。

顺丰科技联合浙江大学、浙江工业大学在论文中提出的创新模型 Li-Net,以仅 0.5MB 的极致轻量化设计,在 24 项学术 Benchmark 测试中拿下 20 项第一,平均绝对误差(MAE)降低 15.3%。该成果正式发表于数据工程领域顶级会议 ICDE 2026,并在快消行业落地中实现预测效率提升 14 倍、训练效率提升 120 倍。本文将系统拆解 Li-Net 的架构设计与三大创新机制。

以下围绕六个方面展开:

  1. 供应链预测的价值与现实困境
  2. 技术演进:从统计规则到深度融合
  3. 核心技术:Li-Net 架构与三大创新机制
  4. 可解释性与长期稳定性
  5. 总结与展望
  6. Q&A

01 供应链预测的价值与现实困境

ICDE 2026会议海报,展示数据工程领域顶级会议信息

ICDE(IEEE International Conference on Data Engineering)是与 KDD、SIGMOD 并列的数据工程三大顶会之一,自 1984 年创办以来已成功举办 42 届,每年吸引 500 余名学术界与工业界研究者参与。Li-Net 的论文在工业与应用赛道获得直接接收,标志着该技术兼具顶级学术创新与真实业务落地价值。

在供应链场景中,预测需求贯穿四类核心应用:商超零售预测关注库存周转率与缺货率,运输网络流量预测优化运力利用率与准时送达率,生鲜品类预测聚焦售罄率与损耗率,站点仓储运营预测则提升人效与设备利用率。

预测场景卡片:商超零售、运输网络、生鲜品类、站点仓储四类核心预测场景

一个典型困境来自蛋糕备货场景。鲜奶油蛋糕仅能保存 1 天,情人节心形蛋糕销量可能暴增 300%,平日却需求低迷。影响销量的因素交织复杂:促销、天气、新品上市、商品下架、新店开业、蚕食效应、节假日、季节性,任何单一变量的忽略都可能导致巨大损耗或缺货。

02 技术演进:从统计规则到深度融合

预测方法的演进经历了三个时代。传统统计方法如指数平滑法和 ARIMA 模型,本质上是对自身时序数据的加权统计操作。指数平滑法通过平滑系数 α 控制近期权重,ARIMA 模型通过自回归项、差分项和移动平均项捕捉季节性与趋势性。但这类方法存在四大局限:孤立预测无法引入外部信息、线性假设难以处理突发波动、外部变量(如天气促销)难以纳入、多通道盲区无法捕捉商品间的关联性。

传统预测方法:指数平滑法与ARIMA模型及其核心局限

机器学习时代以 XGBoost 和 LightGBM 为代表,通过构造滞后特征(前 1/7/14 天销量)、滚动统计特征(近 7 天均值)和交叉特征(品类×季节)进行预测。这种“数据决定上限,特征工程逼近上限”的思路能有效引入外部变量,但瓶颈在于:特征工程难以穷尽所有影响因素、每个 SKU 需单独建模难以规模化、长期依赖能力不足——滚动预测会产生误差累积的牛鞭效应。

深度学习 时代通过 RNN/LSTM 捕捉长期依赖,Transformer 利用自注意力机制并行处理序列。然而标准架构仍面临挑战:多维度融合不足,无法充分利用多通道、多模态信息;计算成本高,需要大量训练数据且推理资源消耗大。

顺丰 Li-Net 要回答的核心命题是:如何在保持预测精度的同时,实现多维度信息的高效融合?如何让模型既能理解商品间的关联(多通道),又能融合不同粒度的信息(多尺度),还能利用文本、图像等异构数据(多模态)?

03 核心技术:Li-Net 架构与三大创新机制

Li-Net 采用编码器-处理器-解码器的流水线架构,核心目标是在低维抽象空间中提取核心模式,重建未来预测。关键原则是将多模态信息智能融合到每一结构层。

Li-Net整体架构:Encoder-Processor-Decoder流水线示意图

整体架构包含四大模块:多模态嵌入模块将文本、日期、商品、门店等信息统一编码为密集向量;特征编码器对时间和通道维度分别进行压缩,通过 Top-K 稀疏注意力保留最重要的关联;非线性变换模块采用 MLP 或 Transformer 进行高阶特征交互,残差连接确保梯度稳定;特征解码器按通道解码到时间解码的顺序,重建最终预测输出。

数据组织维度包含 B(Batch Size 批次大小)、C(ChannelSize 通道/商品数)、T(Time 过去 N 天时间步)、F(Feature 多目标隐藏空间)。每个通道用时间序列向量表示,协变量(促销、价格等)统一编码引入。

三大创新机制

创新一:多通道优化技术

核心洞察来自消费者在替代品间的选择行为:巧克力慕斯促销导致黑森林蛋糕滞销,推出新款芋泥蛋糕后原畅销款芋泥香草杯销量下降 40%。这种蚕食效应在传统模型中被忽略。

多通道优化技术:捕捉商品间关联与蚕食效应

Li-Net 通过三项技术实现多通道捕捉:基于销售模式动态聚类,使相似模式精准匹配;用时间维度销量向量刻画每个通道;协变量统一口径引入。在 C 和 T 轴上分别使用动态正向稀疏化技术,类比 iTransformer 的双维处理思想,模型自动学习商品间的竞争关系与蚕食效应。

创新二:多尺度与多目标技术

Li-Net 通过多尺度聚合实现跨时间粒度的协同预测:日级销量捕捉高频波动,周级销量识别季节性模式,月级销量追踪长期趋势。模型动态调整输入范围,可处理 400 天历史数据与 10000 个通道规模。

多尺度与多目标技术:协同预测架构

多目标技术则将需求预测、库存优化等任务投影到联合嵌入空间,共享特征学习。通过多尺度聚合头加多目标 Loss 约束,实现销量与损耗率的同步预测,提升供应链决策的整体性。

创新三:多模态导航融合

传统方法简单拼接特征会引入异构噪音,信息互相干扰。Li-Net 创新性地将多模态 Embedding 作为注意力“导航器”:文本通过 BERT 风格预训练转为密集向量,冻结外部数据 Embedding 层权重,多模态向量精准引导模型关注重点,相对距离权重约束(总和为 1)确保分布稳定。

多模态预测:让外部信息成为导航器

这种设计使得日期信息(节假日、周末、促销日)、商品信息(品类、属性、描述文本)、门店信息(位置、类型、规模)、实时状态(当前销量、库存水平)能够自动抑制噪音,避免互相干扰。

稀疏注意力:统一与提纯

传统注意力机制的 O(n²) 复杂度在大规模多通道场景下难以承受。Li-Net 设计的 Top-K 稀疏注意力统一了时间与通道的计算口径,处理三种相关性矩阵:销量相关性矩阵(商品间历史销量的关联模式)、协变量相关性矩阵(促销价格等外部因素)、多模态向量相关性(文本类别等异构信息)。

稀疏注意力机制:统一与提纯

机制分为四步:计算全量注意力分数、生成相关性矩阵、Top-K 筛选保留最重要关联、Softmax 归一化。这种正向稀疏化避免了参数爆炸,同时防止互斥变量干扰。

骨干网络设计极为精简,包含轻量级的 MLP 模块(Linear-ReLU-Linear)和标准 Transformer Encoder。通过残差连接防止信息丢失,双通道处理分别处理 C 和 T 维度,维度保持确保特征空间稳定。仅需在时间轴和通道轴交替进行线性变换与转置,两个线性层即可完成时空信息交换,最终模型大小仅 0.5MB。

实验验证与工业落地

在 24 项学术 Benchmark 测试中,Li-Net 有 20 项取得 SOTA 第一,平均 MAE 为 0.3443。与 iTransformer 相比 MAE 降低 15.3%(从 0.4064 降至 0.3443),与 PatchTST 相比 MAE 降低 6.3%(从 0.3673 降至 0.3443),覆盖 ETTh2、ETTm2、Electricity、Weather、Traffic、M5 等数据集。

精度表现:学术Benchmark全面领先

效率指标同样出色:模型体积 0.5MB,相比 TFT 的 26.8MB 缩减 98%,参数压缩比达到 53 倍;ETTh2 数据集推理时间仅 0.4 秒;Traffic 大数据集训练内存仅需 41-167MB。

效率表现:0.5MB的极致轻量化

在快消客户的实际落地中,十亿级件量预测效率提升 14 倍(从 151 分钟降至 11 分钟),训练效率提升 120 倍(20 小时降至 10 分钟),计算资源成本节约 46 倍,服务器投入减少 5 倍,准确率提升 5% 以上。内部应用覆盖件量预测、分拨流量调度、运力优化等场景。

落地应用与企业价值:极致性能表现与广泛应用验证

落地应用:销量预测、库存优化、运力规划三大业务价值

04 可解释性与长期稳定性

工业应用要求模型不仅精准,还需透明可控。Li-Net 通过注意力权重矩阵生成相关性热力图,直接定位预测依据。在一个真实案例中,2025 年 1 月 23 日蛋糕销量预测出现 -20.08% 的偏差,通过权重图发现模型过度参考了去年同期春节的异常销量。修正权重后,偏差显著改善至 -1.08%。

可解释性:注意力权重揭示预测逻辑

长期稳定性方面,Li-Net 采用“输入侧补偿”策略应对时序分布偏移:不频繁更新参数,而是将最近一年的完整历史数据作为输入窗口。模型通过正向推理动态计算相关性矩阵,利用最新数据驱动预测。实证显示,模型即使一年不更新,预测效果仅有微弱下降,训练频率从月级降至年级。

长期稳定性:打破频繁训练困局

05 总结与展望

Li-Net 通过三大核心创新,破解了供应链预测的工业级难题:可学习的稀疏注意力机制统一了时空维度处理并降低复杂度,多模态导航融合以“注意力导航器”方式精准引入异构信息,轻量化 MLP 骨干网络实现 0.5MB 的极致压缩。在保持学术 SOTA 精度的同时,推理效率提升 14 倍、训练效率提升 120 倍、成本节约 46 倍,真正实现了从技术创新到业务价值的完整闭环。

核心总结与未来方向

未来,顺丰团队将探索在线学习、跨领域迁移以及更广泛的供应链场景覆盖,持续推动时序预测技术在工业领域的深度应用。

06 Q&A

Q1:LightGBM 为什么不能直接进行长期预测?

包恒达:LGB 在做预测的时候,一般有两种方法。比如说我要去预测未来 28 天,第一种方法是针对每一天分别建立独立模型,拿昨天的销量预测今天建一个模型,拿昨天的销量预测后天再建一个模型,因为这些是不同的任务,这样可能需要建 28 个模型,成本非常高。

第二种方法是滚动预测,用昨天的预测值作为今天的特征,进行滚动预测,但这会导致“牛鞭效应”,误差会在迭代过程中逐渐叠加放大,影响长期预测的准确性。

Q2:为什么时序领域的 Transformer 不如 MLP?

包恒达:这主要由时序场景的两个核心特点决定。

第一是学术界的时序数据集普遍较小,大参数模型如 Transformer 容易过拟合,MLP 参数量更少,更适合小数据场景。

第二是时序场景中信息密度极度失衡,最近几天的销量信息权重占比可能达到 80%-90%,绝大部分信息密度集中在自身的时间序列数据上。

Transformer 引入的额外信息(跨通道、长轴关联)带来的噪音往往大于有效信息,导致效果反而变差。

MLP 在处理具有强线性相关性的时序场景时更具性价比,参数量小、训练快、不易过拟合,能够高效捕捉时序数据中的核心模式。这也是为什么 Li-Net 选择轻量化 MLP 作为骨干网络,最终实现 0.5MB 的极致压缩和优异性能的重要原因。


以上就是本次分享的内容,谢谢大家。




上一篇:拆解问界M7整车控制器:5个核心IC有3个查不到型号,定制化暗藏哪些门道?
下一篇:同事甩锅怎么办?事前定规矩、事中留痕、事后切割,3招职场防身术
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-1 06:06 , Processed in 0.949832 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表