
论文信息
- 标题:ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding
- 作者:李迦楠(中国人民大学高瓴人工智能研究院)、关健(蚂蚁集团)、吴伟(蚂蚁集团)、李崇轩(中国人民大学高瓴人工智能研究院)
- 发布日期:2025年12月
- 论文地址:https://arxiv.org/pdf/2512.13586
- 核心主题:扩散语言模型,并行解码,KV缓存复用,槽位级规划,自回归填充
🎯 背景与痛点
当前,生成式大语言模型主要遵循两种范式:
- 自回归模型(ARM):如主流的GPT系列,在推理时需逐词(Token)串行生成,导致生成延迟随序列长度线性增长。
- 掩码扩散模型(MDM):支持并行解码多个词元,但因使用双向注意力机制,无法有效复用历史计算的键值(KV)缓存,单次前向传播的计算开销巨大。更关键的是,MDM需要在指数级的词元组合空间上学习联合分布,训练难度极高,容易产生局部概率高但全局不连贯的“right once”类输出。
现有的MDM加速方法,如块级左到右解码,往往以牺牲生成顺序的灵活性为代价,或者仅能实现近似的KV缓存复用,仍面临三大瓶颈:
- 每个解码步骤仍需重算大部分甚至全部KV缓存。
- 难以精确建模相邻词元间的强依赖关系。
- 训练目标因掩码模式组合爆炸而难以优化。
💡 ReFusion核心创新:槽位级规划与填充
ReFusion提出了一种创新的“扩散规划 + 自回归填充”两阶段解码范式,通过将并行粒度从“词元”提升到“槽位”(Slot,即固定长度的连续子序列),从根本上解决了上述问题。
核心思想:
- 扩散规划:在每次迭代中,使用一个轻量级的预测头对所有未被生成的“槽位”进行评分,选出置信度高且相互依赖弱的槽位进行并行“草稿”。
- 自回归填充:使用投机解码(Speculative Decoding)技术,一次性验证并补全这些被选中槽位的草稿内容。若填充失败,则仅在槽内进行迭代式补全。
- KV缓存全复用:通过创新的“槽位重排”机制,将已生成的槽位移至序列前端,使得模型的因果注意力机制能够直接拼接和复用历史KV缓存,无需任何重算。
这种方法将组合空间的复杂度从词元级的指数级(2^L)降低到了槽位级的阶乘级,首次在保持任意顺序生成能力的前提下,实现了全KV缓存的高效复用。
⚙️ 方法论与技术实现
1. 技术流程
输入提示后,将待生成的序列预先划分为固定长度的槽位。解码过程迭代执行以下步骤:
- 步骤A:扩散规划。对当前仍被掩码的槽位,模型预测其首词元的概率作为“置信分”。选择分数高于阈值
τ_slot 的槽位,生成其草稿内容。
- 步骤B:自回归填充。将所有选中槽位按其在原始序列中的位置拼接,利用投机解码进行验证。接受被完全验证的槽位;对于验证失败的部分,则在对应槽位内部进行迭代式自回归补全。
- 步骤C:槽位重排与缓存更新。将本轮新生成或补全的槽位物理重排至序列最前端,更新KV缓存。此过程利用了RoPE位置编码的特性,在不改变模型对逻辑位置感知的前提下完成重排。
重复以上步骤,直至所有槽位生成完毕,最后恢复原始顺序输出。
2. 模型架构与训练
ReFusion在单一因果注意力架构内,实现了“槽内自回归,槽间任意序”的生成模式。
- 混合训练目标:对已完全生成的“干净”槽位,使用标准的自回归负对数似然损失;对被掩码的槽位,则使用扩散模型的去噪损失。这种联合优化确保了模型同时具备高精度的“规划”(选择生成哪个槽)和“填充”(生成槽内内容)能力。
- 半自回归重掩码:在推理生成长序列时,可先将长序列分块,块间采用传统的串行生成以保证长程依赖,块内则启用ReFusion的槽位并行机制,从而兼顾效率与质量。
📊 实验评估与性能表现
消融实验 验证了各组件的关键作用:
- 去除KV缓存复用:解码速度下降约20%,性能基本持平。
- 去除槽内自回归机制:在HumanEval代码基准上性能骤降11.4个百分点。
- 强制固定为左到右生成顺序:平均性能下降4.8个百分点。
以上结果证明,任意的生成顺序与槽内的局部因果依赖建模二者缺一不可。
核心性能对比(基于8B参数模型):
- 质量:在涵盖代码、数学、推理的7项主流基准测试中,ReFusion的平均表现比此前最佳的MDM方法(Dream w/ D2F)高出6.76个百分点。其中:
- 代码生成(HumanEval)达到78.66% pass@1,相比Dream基线有21.5个百分点的绝对提升。
- 数学推理(GSM8K)得分超越强自回归基线Qwen3-8B-Instruct达3.68分。
- 速度:在单张A100 GPU上(batch size=1)的测试显示:
- 平均吞吐量比最强的MDM基线快18倍。
- 比高效的Qwen3-8B自回归模型快2.33倍。
- KV缓存的高效复用使得每个解码步骤的延迟降低了16%至33%,且在此过程中模型性能不仅没有下降,反而有0.2至1.3个百分点的微幅提升。
🧠 技术启示与未来展望
范式意义:ReFusion首次证明,“扩散规划+自回归填充”的范式可以在单一因果注意力架构内实现,打破了“掩码扩散模型必须依赖双向注意力”的固有认知,为生成式人工智能的模型架构设计提供了新思路。
应用前景:该技术能使代码补全助手、实时对话等对延迟敏感的场景直接受益,在保证输出质量的同时,将端到端延迟降低到传统自回归模型的一半以下。其架构也很容易拓展到多模态文档生成、长视频字幕生成等长序列任务中。
当前局限与未来方向:
- 局限性:一旦槽位生成即被“冻结”,难以在后续步骤中回退修正,这在生成长篇、需要精细前后照应的文本时可能带来早期决策与后期语义冲突的风险。
- 改进方向:
- 探索“子槽级”的重掩码与动态槽位长度,实现更细粒度的迭代式精炼。
- 结合强化学习来优化规划策略,以更好地处理多步推理任务。
- 将模型规模扩大至30B甚至更大,验证其性能扩展定律(Scaling Law)。
📦 资源汇总

|