云栈社区»论坛 › 站务中心「 Forum Service 」 › 昇腾NPU如何驱动生成式推荐落地？从FuXi模型到Performance Law的 ...

发回帖发新帖

4324 积分	0 好友	568 主题

发消息

昇腾NPU如何驱动生成式推荐落地？从FuXi模型到Performance Law的全栈实践

发表于 2026-5-20 04:11:04 | 查看: 133| 回复: 0

在推荐系统跨入大模型时代的当下，如何利用国产算力底座支撑起千亿级参数模型的高效训推，已成为工业界关注的核心课题。

本文基于华为主任工程师郭威在 2025 AICon 全球人工智能开发与应用大会·北京站 的演讲《基于昇腾 NPU 的生成式推荐 Scaling Law 落地实践》，深度复盘了华为在推荐技术演进中的前沿探索——从早期对特征工程与模型结构螺旋式上升的探索，到生成式推荐时代的全面转向。文章详尽披露了 FuXi-α、β系列模型的设计思路，揭示了如何通过极致系统优化，解决大规模分布式训练和低时延推理难题。

更具工程参考价值的是，他首次公开分享了华为在“多阶段统一建模”领域的突破性进展，以及针对推荐系统定制的 Performance Law（性能定律）。该定律通过引入“真实熵”度量，精准修正了传统 Scaling Law 在推荐场景下的预测偏差，为极低成本下的参数寻优提供了科学依据。

以下是演讲实录（经 InfoQ 进行不改变原意的编辑整理）

背景介绍

推荐系统演进：生成式推荐开启推荐系统的大模型时代

2024 年之前的深度学习推荐技术，主要沿两大路径演进：

一是 特征交叉建模，以 DeepFM、DCN 等为代表，核心依托特征交叉模块，自动挖掘或人工构造高阶交叉特征，实现特征间复杂依赖关系的建模；二是 行为序列建模，早期研究聚焦短序列场景，借助 DIN 模型的目标注意力机制及 Transformer 结构刻画用户短期兴趣。2021 至 2022 年，长序列建模成为行业研究热点，普遍采用两阶段检索方式，从超长行为序列中萃取关键信息，完成用户兴趣表征。

进入生成式推荐系统阶段后，技术演进依旧分化为两条核心路径。

第一条为 端到端模型 Scaling Law，以探索模型规模上限为核心，依托生成式架构对用户全量行为序列进行统一建模，以单一大模型替代传统推荐系统召回、粗排、精排、重排多环节架构，达成推荐全流程端到端建模；第二条自 2025 年下半年起逐步获得业界重视，核心以大语言模型重构底层技术底座，搭建用户行为与大模型的对齐表征空间，借助大模型的逻辑推理能力赋能推荐效果升级。

25年业界快速布局生成式推荐技术，发布10+生成式推荐模型

如图所示，展示了 2025 年业界生成式推荐技术的全景概览。可以看到，2025 年是生成式推荐技术快速爆发的一年：不仅有十余家知名机构相继发布标志性成果，相关研究工作也呈现出持续涌现的态势。

整体来看，该领域已经形成较为清晰的技术演进脉络，并可以归纳为三大显著趋势。

首先，模型结构的持续创新。技术演进路径从早期的 HSTU 序列规模化（Scaling），逐步发展到 RankMixer 所代表的特征交互规模化，演进至近期 OneTrans 与 Meta GEM 等模型所采用的融合规模化方案。华为在此领域也贡献了华为 FuXi- α 、β 及 DLF 等工作。

其次，训练范式的革新。随着模型参数规模的扩大及其表征能力的增强，业界开始尝试利用单一模型统一推荐系统中的多个阶段，推动了从单阶段建模向多阶段联合训练的范式转变。这一趋势的典型代表包括华为的 UniGRF、快手的 OneRec-V1 与 OneRec-V2，以及腾讯近期推出的 GPR。

最后，训练方式逐步从“从零训练”转向基于大语言模型的增量式训练。该方向的代表性工作包括谷歌 PLUM 以及快手 OneRec-Think。该范式的核心优势在于引入 LLM 的通用知识与推理能力，从而增强模型对用户行为序列与意图语义的理解能力，并提升整体推荐质量与泛化能力。

模型架构探索

大语言模型架构与Scaling Law背景介绍

首先从模型结构的探索展开，重点介绍 FuXi- α 、β 模型。自 2024 年 2 月 Meta 发布 HSTU 以来，推荐系统领域迎来了属于自己的 “ChatGPT 时刻”，业界发现推荐系统同样具备 Scaling Law。

受到大语言模型的启发，我们深入开展了基于自回归 Transformer 的序列建模研究。通过对 GPT、Llama、SASRec 以及 HSTU 等典型模型结构，进行复现与对比分析。实验结果表明，传统的 SASRec 和 GPT 在推荐系统场景中不具备规模化效应，而 Llama 和 HSTU 则能够呈现出该效应。

通过分析其核心原因，我们发现模型结构中的残差连接方式与归一化策略起着关键作用。以 Llama 和 HSTU 为代表的结构，将归一化置于注意力机制之前，使特征分布更加稳定与均匀，从而更好支持大规模模型训练。

基于上述分析，我们对经典的 SASRec 模型进行了优化，通过改进其残差结构，并引入时间建模，使其成功展现出规模化效应。这一研究结果表明，规模化效应的核心在于通过合理的结构设计约束表征空间，从而实现模型的更好收敛。

在对现有结构进行充分评估后，我们发现了新的研究挑战：其一，Llama 虽在语言建模任务中表现优异，却缺失了推荐系统中至关重要的时间信息；其二，以 HSTU 为代表的架构虽融合了语义、时间与位置信息，但由于其处理方式较为简单，导致特征交互深度不足，且关键特征的重要性易被掩盖。此外，HSTU 为追求极致的加速效果，舍弃了 FFN 模块，进而忽略了特征之间的隐式交互。

FuXi-Alpha：特征交互增强的Transformer

针对上述局限，华为提出 FuXi-Alpha 架构，其核心设计理念为 特征交互增强，具体设计方案如下：

其一，引入自适应多通道显式特征交互增强机制。相较于 HSTU 通过简单叠加语义、位置及时间信息所导致的信息丢失问题，FuXi-Alpha 通过构建三个独立通道分别开展特征交叉操作，后续进行拼接处理，可更完整地保留多维特征的表达能力。

其二，设计并引入多阶段前馈网络（FFN），以强化隐式特征交互建模。借鉴 DeepFM 与 DCN 等经典模型的成功实践经验，深度神经网络模块对推荐系统捕获复杂模式具有重要意义，因此 FuXi-Alpha 构建了两阶段 FFN 结构。

该两阶段 FFN 结构的具体功能为：第一阶段负责多通道信息的深度融合，第二阶段则执行隐式特征的交叉建模。上述设计具备显著优势：一方面能够确保特征交叉建模的充分性；另一方面，由于 FFN 的核心操作主要基于矩阵乘法，具有极高的硬件计算亲和性，可有效提升模型的 MFU。

实验结果：公开数据集预测精度提升显著

如图所示的实验结果表明，在 2 层及 8 层配置下，Fuxi Alpha 均展现出优于 Llama 与 HSTU 的性能表现。实验数据进一步验证，显式特征交互与隐式特征交互两项技术创新，能够显著增强模型整体效果。基于大规模真实工业数据集的评测结果，我们观察到 Fuxi Alpha 具备优异的 Scaling 潜力，模型效果随网络深度增加呈持续提升趋势，目前已成功验证至 32 层。

在进一步扩展至 64 层的过程中，由于当时显存优化方案尚未完全成熟，训练过程中出现 NPU 显存溢出（OOM）问题，但整体性能演进趋势依然清晰且稳定。

目前，该模型已在召回场景实现全量上线，并取得显著业务收益。具体数据显示，歌曲播放次数提升 4.67%，播放时长增长 5.1%。

可视化分析：不同通道的相对注意力具有显著差异

为了更深入地理解 Fuxi Alpha 的内部机制，我们对其 Attention Map 进行了 可视化分析。在热力图矩阵中，横轴与纵轴分别对应注意力计算中的 Query 与 Key，其数值大小用于表征不同特征之间的交互强度。

分析结果显示，语义通道的最大注意力权重仅为 0.07，而时间与位置通道分别达到 0.15 与 0.25。其中，时间通道呈现出较为显著的全局性高权重分布特征，而位置通道的注意力分布则相对稀疏，但在局部区域表现出更强的集中性。

上述现象揭示了两点核心结论：

其一，不同通道之间的注意力分布存在显著差异，进一步验证了分通道建模的必要性与有效性；

其二，在推荐场景中，时间与位置信息相较于语义信息展现出更高的贡献度与影响力。尽管当前可视化结果中仍包含更复杂的潜在行为模式有待进一步挖掘，但上述结论已充分支持多通道增强架构的设计合理性，并为后续模型结构迭代提供了重要依据。

FuXi-Alpha模型的进一步分析：语义通道是否必须？

基于 Fuxi Alpha 的可视化结论，我们对各通道的必要性进行了进一步系统分析。

由于语义通道具有 O(n²) 的计算复杂度，当序列长度扩展至千级甚至万级时，其计算开销将迅速放大，并成为制约模型扩展能力的关键瓶颈。结合前述分析中语义通道注意力权重相对较低的现象，我们推测，在适当移除该通道的情况下，模型在显著降低推理时延的同时，整体效果受影响可能较小，甚至有机会通过支持更长序列建模带来额外增益。

实验结果验证了上述假设。在通道消融实验中，移除语义通道不仅未导致性能下降，反而带来了轻微的效果提升；移除位置通道后，整体性能基本保持稳定；而移除时间通道则会导致模型效果显著下降。此外，在仅保留单一通道的极端设置下，模型精度出现明显退化。

基于上述结果，可以得出结论：在对推理时延要求较为严格的场景中，语义通道并非关键贡献来源，对其进行移除是一种具有实际价值的结构优化方向。

在进一步的工程实践中，针对基于昇腾 NPU 的生成式推荐系统，我们观察到相对时间编码在计算路径中存在显著性能瓶颈。

该编码的传统实现方式通常包括：首先计算序列中任意两个位置之间的时间戳差值，其次进行分桶映射处理，再通过索引操作获取对应的注意力偏置，最终将其注入注意力计算模块。由于该过程涉及大量非连续内存访问与索引操作，其内存访问开销较高，在整体推理耗时中的占比接近 40%。

考虑到推荐系统对推理延迟通常具有 50–100ms 级别的严格约束，我们进一步尝试以轻量化函数近似替代复杂的相对时间编码计算流程，从而降低计算与内存访问复杂度，并提升整体推理效率与系统吞吐能力。

FuXi-Beta：轻量级的异腾亲和的Transformer

为此，我们开展了系统性的实验验证，重点探索以连续函数替代传统“分桶 + 索引”机制的可行性。在研究过程中，我们对线性函数、神经网络、三角函数、指数函数及幂函数等九类函数形式进行了对比实验。

通过对拟合曲线的细致分析可以发现，幂函数在刻画相对位置偏置（RAB, Relative Attention Bias）时与原始分桶分布最为接近，尤其在序列后段的长尾区域，其拟合效果表现出更好的稳定性与一致性。

进一步的实验结果表明，在推荐任务评测中，基于幂函数的建模方式整体效果与原始分桶函数持平，甚至在部分指标上呈现轻微提升。该结果说明，连续函数在一定程度上能够有效近似离散分桶机制，同时具备更好的表达平滑性与潜在泛化能力。

基于上述发现，我们将原有的 RAB 计算逻辑替换为幂函数形式拟合，将其作为模型架构中的第二项关键优化。

实验结果：公开数据集和工业数据集取得了最优的精度-效率平衡

实验结果显示，Fuxi Beta 在大规模工业数据集及公开数据集上均实现了精度与效率的最佳平衡。在保持甚至优化推理效率的基础上，其精度表现优于 Fuxi Alpha 及 HSTU，且在降低推理时延方面效果显著。消融实验进一步验证了架构设计的合理性。移除语义通道能够有效降低计算开销，且对精度无负面影响，甚至带来轻微提升；而时间通道与位置通道对于维持模型性能具有不可替代的作用。

训练范式探索

目前推荐系统普遍采用由召回、粗排及精排组成的多阶段流水线结构，该模式存在两个核心问题：其一，前序阶段的输出质量直接决定后续环节的性能上限；其二，由于各阶段模型结构与优化目标不统一，在候选集传递过程中不可避免地 产生信息损失。

借鉴生成式大模型的多任务处理能力，我们尝试利用生成式推荐统一召回与精排等多个传统推荐阶段。通过持续扩展模型规模，实现单一大模型覆盖多环节、多场景建模。这一方法不仅有助于显著降低系统复杂度与维护成本，同时具备潜力获得更优的整体推荐效果。

尽管统一建模构想具有显著优势，但在工程实现层面仍面临严峻挑战。首要障碍在于模型结构的本质差异：召回阶段通常采用双塔架构（如 DSSM），而精排阶段则多采用单塔结构。此外，两者在优化目标上亦存在显著分歧，召回环节多以 BPR 等 Pairwise Loss（成对损失）为核心，而精排环节则普遍采用 Pointwise Loss（逐点损失）。这种在架构设计与目标函数上的不一致性，构成了统一建模过程中难以直接逾越的技术屏障。

随着生成式推荐技术的兴起，为解决传统推荐系统的阶段性冲突提供了新的契机。

其核心思路在于将原本异构的召回与精排环节统一建模为 “Next Item Prediction” 任务。在召回阶段，模型基于用户历史行为，从全量词表中预测并检索潜在的下一个交互物品；在精排阶段，则在给定候选集范围内，利用相同的预测机制对用户点击或偏好概率进行精细建模与打分。

这种任务形式的归一化，使得原本在结构与目标上存在鸿沟的两个阶段，能够在同一生成式架构下形成逻辑闭环。通过这一方式，我们构建了能够同时覆盖召回与精排任务的统一模型结构。在完成架构设计后，我们进一步基于真实业务数据集展开了系统性的训练与验证。

已有多阶段模型存在的问题：召回和精排损失函数不一致

我们在 2024 年 6 月启动该项研究。在初期实验过程中，遇到了一个极具挑战性的障碍，即推荐系统中的“单轮训练（One-Epoch）”现象。

精排任务通常在完成一个训练轮次后，模型精度即达到峰值，随后进入过拟合状态，性能持续下降。与之相反，召回任务的训练行为完全不同，其精度随训练轮次增加而稳步提升，即使经过数百甚至上千次迭代，仍保持持续上升趋势。

这种训练动态的显著差异，其根本原因在于损失函数的不一致性。召回阶段主要采用基于 InfoNCE 的对比学习损失，而精排阶段则以对数损失（Log Loss）为主。两类目标函数在优化方向与收敛特性上的天然差异，使得多阶段联合优化面临显著冲突，成为统一建模过程中难以直接消解的关键技术障碍。

UniGRF：样本空间&训练Loss一致性约束

针对上述挑战，我们首先尝试从 样本空间的维度 对召回与精排阶段进行统一对齐。

具体而言，我们将召回阶段评分较高但精排评分较低的样本，作为困难负样本反馈给召回任务；同时，将精排评分高但用户实际未交互的样本作为正样本，引入下一轮次的召回训练。通过这种双向的样本反馈机制，我们在数据分布层面初步建立了两个阶段的关联。

然而，仅靠样本空间的统一尚不足以填补损失函数间的巨大鸿沟。

借鉴谷歌在多任务学习中关于梯度正则化的研究思路，我们进一步引入了梯度引导的自适应权重机制。该机制能够实时监控训练过程中召回与精排损失的梯度动态，并据此自动调整各任务在总损失中的权重比例。通过这种方式，最终使统一建模的生成式推荐模型实现了理想的收敛效果。

实验结果：UniGRF解决了精排模型的One-Epoch现象

如实验数据图表所示，在未引入损失函数正则化机制前，召回与精排任务难以在统一架构下实现稳定收敛；

而在引入数据一致性策略与损失正则化后，模型不仅能够成功进行联合训练，且其性能表现随训练轮次的增加呈现出稳步上升的趋势。

实验结果表明，该统一建模方案在召回与精排各项指标上，均显著优于传统的单阶段独立模型。

在对比分析中，我们发现传统的深度学习多阶段联合建模方案（如 RankFlow、Cor 等）在生成式推荐范式下的表现并不理想。尽管 2025 年业界出现了利用 强化学习 实现召回精排一致性建模的方案，但在 2024 年开展该项工作时，我们通过尝试发现，强化学习存在极大的训练不稳定性和收敛难度，因此最终选择了多任务正则化的路径。

超参数寻优 & 训推系统优化

背景介绍：Scaling Law仅考虑数据规模导致性能预测偏差

在完成了对模型结构与训练范式的探索后，接下来的核心挑战在于如何针对大规模模型（如 1B 或 10B 参数量级）进行最优超参数配置。

虽然大语言模型提供了成熟的配置参考，如 32 层架构或 4096 维嵌入，但由于推荐系统与语言建模之间存在显著差异，直接复用相关参数往往难以取得理想收益。

这种差异主要体现在两个维度：首先是 信息量的不均。推荐系统中的用户行为序列在信息量上存在显著差异，若不考虑这种信息量的波动而单纯套用 token 建模逻辑，会导致规模化效应失效；其次是 词表规模的量级差距，语言模型的词表通常在十万量级，而推荐系统涉及词表达到千万甚至亿级。

此外，现有的 Scaling Law 在应用中也存在局限性。传统的 Scaling Law 主要拟合损失函数（Loss）与参数规模的关系，但在推荐场景下，极低的损失值往往可能源于过拟合，并不一定能转化为实际业务效果的提升。

实验观察表明，Loss 下降与效果提升之间并非线性关系。针对这一预测偏差，我们提出了一套针对推荐系统优化的 Scaling Law 方案，旨在更精准地通过模型规模预测业务性能。

为解决推荐系统与语言模型在 Scaling Law 上的预测偏差，我们引入了数据质量度量机制，通过量化数据的“真实熵”（Real-world Entropy）来提升拟合精度。该方法的核心在于通过分析序列模式的分布差异，捕捉序列内部的结构化特征与冗余度，进而实现对数据质量的量化评估。

在具体实践中，我们利用 Lempel-Ziv (LZ) 压缩算法估算真实熵，通过统计序列中非重复子序列的数量来表征信息量；熵值越高，代表数据的信息密度与质量越高。基于这一度量标准，我们对通用的规模化定律进行了公式重构。不同于仅依赖词元数量 D 的传统模型，新公式引入了综合考量数据质量的有效数据量参数 D'，将真实熵作为核心变量整合进规模化预测模型中。

针对语言模型中“参数与数据量无限增加，模型效果持续提升”的假设，在推荐系统领域并不完全成立，因为损失函数与实际业务性能之间，并非简单的线性关系。当模型参数过度增加时，往往会触发过拟合导致性能下滑。为修正这一偏差，我们创新性地在 Scaling Law 中引入了衰减项。

实验结果：引入真实熵后Performance Law拟合准确率显著提升

实验表明，未引入该衰减项及数据质量度量时，语言模型规模化定律对推荐系统的拟合系数仅为 0.18；而在整合衰减项与数据真实熵后，拟合系数大幅提升至 0.92。

具体数据对比显示，引入真实熵后，曲线的 R² 从 0.8776 提升至 0.9881，实现了对模型损失与实际效果的高精度拟合，该研究也诞生了推荐系统领域，首个能够准确衡量模型效果与参数关系的工具——Performance Law。

Performance Law 的提出为大模型时代的参数寻优提供了极具价值的路径。在面对数十亿级参数与千亿级样本时，全量调参的成本难以承受，我们通过在小规模数据集上利用小参数模型拟合出 Performance Law 曲线，进而外推并锁定局部最优解，从而以极低的成本确定大模型的最佳参数配置，并确保模型在扩展过程中维持最优性能。

然而，单纯追求算法精度并不足以满足工业级部署需求，因为硬件算子对参数形状（Shape）具有极高的敏感性。例如，当参数维度从 32 调整为 28 时，由于非 16 的倍数导致无法充分利用 NPU 的并行计算能力，推理时延可能成倍增加。目前的 Performance Law 仍主要侧重于精度预测，忽略了计算效率的维度。因此，如何将算子粒度的硬件仿真与精度建模相结合，成为了下一阶段极具挑战性的研究方向。

异腾亲和的生成式推荐训练推荐系统优化

在确立了模型架构、训练范式与最优参数后，系统层面的全链路优化成为生成式推荐落地的关键。由于推荐系统对推理时延有着 50 至 100 毫秒的严苛约束，为此我们联合昇腾打造了深度亲和的推荐训推系统。

在训练侧，我们研发并开源了包括 Hstu、Fuxi、RAB 在内的 高效融合算子；同时，针对 PB 级稀疏 Embedding 与百亿级稠密参数并存的特征，实现了 稀疏与稠密混合并行策略。此外，考虑到推荐序列长度分布极不均匀（峰值 1000 而均值仅 200），我们构建了从特征处理到模型计算的全链路 Jagged 计算架构，彻底消除填充冗余，使有效计算占比大幅提升。

在推理侧，为了平衡性能与存储成本，我们针对长序列场景引入了 P/D 分离部署架构。鉴于海量用户产生的缓存，可能达到 PB 级。我们采取了差异化计算策略，仅针对高活跃及长序列用户启用缓存机制，而短序列用户则采用实时计算方案；其次，我们引入了混合精度技术，来有效降低推理过程中的计算成本与响应时延；最后，针对序列长度差异化导致的计算不均，我们采用了动态 Batching 策略，通过自适应调整批大小来化解长尾分布带来的负载失衡。

目前，基于昇腾 910B 构建的 128 卡集群在训练时的模型算力利用率（MFU）已超过 40%，线性加速比优于 0.9。

面向未来，昇腾推荐系统将聚焦于“超节点”架构的演进。该架构的核心优势在于拥有超大容量的共享内存池与卓越的 AI 算力。

针对 TB 级稀疏 Embedding 带来的巨大通信挑战，超节点凭借超高带宽与低时延特性，彻底消除了跨机多卡分布式架构的性能瓶颈；同时，生成式推荐在预填充与解码阶段均属于 计算密集型任务，混合超级点凭借其充沛的 AI 算力，能够有效支撑高并发与低时延的推理需求，成为下一代生成式推荐的关键底座。

总结和展望

总结和展望：推荐系统技术演进路径

基于昇腾 NPU 全栈构建的生成式推荐模型，我们已在华为内部的召回与精排等多个核心场景实现全量落地，并取得了显著的应用成效。

回顾推荐系统的技术演进，其发展路径呈现出极具规律性的博弈特征。早期以逻辑回归为代表，技术核心在于复杂的特征工程与简单的模型结构。随着深度学习的兴起，行业开始尝试通过模型结构的创新来减少对人工特征工程的依赖，在 2017 至 2018 年间涌现出 DeepFM、DCN 等多样化架构，形成了百花齐放的态势。然而到 2021 年前后，模型结构边际效益显著递减。

这促使技术路线再次向精细化特征工程回归，通过 ETA 或 CAN 等技术，利用两阶段检索或笛卡尔积等手段处理长序列与复杂交叉特征，来寻求效果突破。

在深度学习阶段之后，推荐系统步入了生成式推荐的新纪元。

其核心思想在于通过简单的特征工程与统一的模型结构，利用模型自主学习能力替代繁琐的人工特征处理。随着模型规模的扩大，这种范式展现出了卓越的性能，并逐步演进为生成式推荐。

我认为，生成推荐范式的出现标志着技术路径的收敛，它告别了过去“特征工程”与“模型结构”互为拉锯、螺旋式上升的模式，转而走向以“强算力、强模型”为核心的单向路径。

在强算力维度，推荐系统的演进正经历从单机多卡向超节点集群的跨越，旨在通过超大规模算力支撑起模型能力的质变。通过将算力利用率从极低水平提升至 50% 以上，能够有效承载模型参数规模从 1B 到 100B 的大幅跃升。

尽管目前多数生成推荐模型仍处于从零开始训练的阶段，但未来的核心演进方向必然是引入世界知识与推理能力，从而构建具备更强性能的基础模型。

综上所述，生成推荐系统的未来趋势将全面聚焦于“强算力”与 “强模型” 的深度融合。技术攻关的核心在于如何构建高效的训练系统以最大化算力价值，并在此基础上打造搜推广领域的基础大模型，以更强的模型能力驱动推荐结果的迭代升级。

在云栈社区，我们持续关注AI基础设施与推荐系统工程化的最新实践，也期待更多类似昇腾NPU与生成式推荐结合的深度技术分享。

嘉宾介绍：

郭威，华为基础大模型部主任工程师，研究方向为用户行为建模和生成式推荐系统。在 KDD，SIGIR，WWW 等高水平会议和期刊上发表论文 20 多篇。多项研究工作落地华为应用市场、广告等真实业务场景。相关工作谷歌学术引用 2000 余次，曾获 DLP-KDD best paper, KDD best student paper 等奖项。

上一篇：Nginx CVE-2026-42945 堆溢出漏洞 PoC 与 ASLR 绕过分析
下一篇：2026腾讯游戏安全赛安卓决赛VM还原实战

生成式推荐, 昇腾NPU, FuXi模型, 推荐系统, 性能定律