云栈社区»论坛 › 技术文档「 Note & Doc 」 › 超越传统SD：SSD框架全异步解码实现4.7倍平均加速 ...

发回帖发新帖

4478 积分	0 好友	585 主题

发消息

超越传统SD：SSD框架全异步解码实现4.7倍平均加速

发表于 2026-3-7 16:47:28 | 查看: 85| 回复: 0

大模型推理的核心瓶颈长期在于自回归解码的串行本质。投机解码（Speculative Decoding, SD）通过引入一个轻量级的草稿模型来预测后续 token，并交由目标模型并行验证，从而有效加速了推理过程。

然而，SD 算法本身依然受限于一道严格的串行依赖——草稿模型必须等待目标模型的验证完成，才能开始下一轮的起草。

近日，出自 Mamba、FlashAttention 核心作者 Tri Dao 之手的全新框架——Speculative Speculative Decoding (SSD) 正式发布。该算法彻底打破了起草与验证之间的串行壁垒。

在目标模型执行验证的同时，草稿模型直接预测最可能的验证结果，并为这些结果提前生成推测 token。如果实际验证结果命中预测，推测序列将立刻返回，起草延迟被完全消除。

基于此框架实现的 Saguaro 算法，在 Llama-3 与 Qwen-3 系列模型上，实现了相较于自回归基线最高 5 倍的提速，相较于高度优化的开源推理引擎（如 vLLM 和 SGLang 中的 SD 实现）达到了最高 2 倍的性能提升。

Speculative Speculative Decoding 论文标题页

论文标题：Speculative Speculative Decoding

论文链接：https://arxiv.org/pdf/2603.03251

代码链接：https://github.com/tanishqkumar/ssd

投机解码的瓶颈与 SSD 的核心机制

在标准 SD 中，系统效率的核心衡量指标是接受率 $\alpha$ 。接受率反映了草稿分布近似目标分布的程度，其定义如下：

接受率 α 的计算公式

传统 SD 中，每一次验证必须等待前一次起草结束，反之亦然。SSD 则将草稿模型部署在独立的硬件节点上，使其在验证阶段保持异步运转。

SSD 算法中验证器与推测器的全异步并行生命周期

在验证进行时，SSD 的草稿模型构建一个推测缓存（Speculation Cache）。一旦验证结果返回，系统仅需执行一次缓存查找。

SSD 的理论预期加速比直接取决于缓存命中率 $p_{hit}$、主推测器的耗时 $T_p$ 以及备份推测器的耗时 $T_b$：

SSD 理论加速比公式

传统 SD 与 SSD 异步流水线的机制对比及在 4×H100 上的端到端吞吐量表现

Saguaro 算法：解决异步推测的三大挑战

为了让 SSD 落地并逼近理论性能上限，研究团队设计了 Saguaro 算法，针对性地解决了三个关键的系统与算法挑战。

1. 验证结果预测与缓存拓扑优化

给定预测长度 $K$ 和词表大小 $V$，可能的验证结果空间约为 $V^K$，穷举推测在算力上并不可行。

Saguaro 将预测验证结果转化为一个约束优化问题：在给定的算力预算 $B$ 下，如何分配每个预测深度 $k$ 的分支数量（Fan-out）$F_k$ 以最大化缓存命中率。

证明表明，最优的 $F_k$ 分配服从截断几何级数：

最优分支数量 F_k 的计算公式

由于连续接受 $k$ 个 token 的概率随 $k$ 指数递减，系统应当在较浅的节点分配更多的算力分支来猜测 bonus token，而在较深的节点收敛算力。

Saguaro 缓存机制，算力分支随验证通过概率的衰减呈几何递减

高温采样下，几何扇出策略的命中率与速度全面优于均匀扇出

2. 操纵残差分布

当推测的 token 被拒绝时，目标模型会从残差分布中采样 bonus token。残差分布定义为 $p_{target} - p_{draft}$。

该分布在高温下较难预测。Saguaro Sampling 通过在草稿分布中压低最高频 token 的采样概率来解决这一问题。

当 $C$ 减小，这些 token 在残差分布中的概率质量会相应增加，从而迫使 bonus token 大概率落入预设的缓存中。

其采样方案 $\sigma_{F, C}(z)$ 定义如下，其中 $C$ 为降权超参数：

Saguaro 采样方案 σ_F,C(z) 的定义

Saguaro 采样在接受率与命中率间的权衡

3. 大 Batch 下的退避策略

当 batch size 增大时，整个 batch 发生缓存未命中的概率上升。一旦未命中，系统必须退避至同步推测模式，整个 batch 都会阻塞在备份推测器的延迟上。

Saguaro 提出了一种动态退避策略。在低 batch size 下，使用高精度慢模型作为备份能带来更高收益。

而当 batch size 超过某个由命中率和系统延迟共同决定的临界值时，必须立刻切换为极低延迟的推测器（如返回随机 Token 或使用 n-gram 模型）以避免全局拖累。

随着 batch size 的增长，快速备份推测器的端到端收益逐渐超过神经网络推测器

工程优化与系统表现

在异步推测阶段，草稿模型需要在一个前向传播中并行解码所有 $F_k$ 个分支。研究团队为此在推理引擎中开发了定制化的稀疏注意力掩码。

定制稀疏注意力掩码，保障多推测分支在共享验证前缀时实现严格的独立并行解码

最终的端到端评估在 Llama-3 与 Qwen-3 上进行。测试表明，结合开源推理框架，SSD 能够在吞吐量与延迟的二维指标上突破现有的帕累托前沿。

Llama-3.1 综合评估：绝对提速及拓宽帕累托前沿

SSD 在 Llama-3.1 与 Qwen-3 上针对特定数据集的解码速度对比表

结语

投机解码原本旨在牺牲计算资源换取低延迟，这往往导致它在吞吐量受限的场景（如大规模 RL 或离线数据生成）中难以施展拳脚。

然而，SSD 展现出了一种全新的可能性。通过极致的异步解耦，它不仅没有加重验证器的计算负担，反而实质性地拓宽了延迟与吞吐量的帕累托前沿。

SSD 的真正价值在于，它证明了在模型架构无需变动的前提下，系统级调度与底层算法的精细协同依然蕴含着巨大的性能红利。这为后续的推理优化研究，例如探索更高效的开源实战或改进Transformer架构的内部并行性，提供了新的思路和更高的基准。

上一篇：量化交易模拟全解析：从蒙特卡洛到粒子滤波的Python实战指南
下一篇：SpringBoot性能优化12招：高并发场景下Java应用的实战调优指南

投机解码, SSD, 大语言模型, Llama-3, 推理优化