在深度学习领域,尤其在大语言模型训练中,存在一个近乎共识的观念:计算出的梯度更新越完整,模型训练效果越好。像 Adam、RMSProp 这类自适应优化器之所以成为标配,正是因为它们致力于利用每一份梯度信息进行精细的参数调整。
但是,来自 Google 和西北大学的最新研究论文《On Surprising Effectiveness of Masking Updates in Adaptive Optimizers》提出了一个颠覆直觉的发现:
随机丢弃高达 50% 的参数更新,不仅不会损害训练,反而能显著提升模型的最终性能!
从参数量为 60M 到 1B 的 Llama 系列模型实验中,这种名为 SkipUpdate 的简单策略,一致性地击败了包括当时 SOTA 优化器 Muon 在内的诸多强手。这迫使我们重新思考:我们真的需要每一次梯度更新都“雨露均沾”吗?
SkipUpdate:大道至简的有效策略
核心算法
SkipUpdate 的算法思想极其简单,可以概括为“随机屏蔽”:
# 伪代码示意核心逻辑
for each parameter block b:
m_t^(b) ~ Bernoulli(0.5) # 以50%概率生成掩码 (0或1)
θ_{t+1}^(b) = θ_t^(b) - s_t^(b) * m_t^(b) * Δ_t^(b) # 仅当掩码为1时应用更新
关键设计:
- 随机掩码:每个参数块(如 Transformer 的一层)在每个训练步独立地以 50% 的概率被跳过(不更新)。
- 动量保持:至关重要的一点是,即使参数本身未被更新,优化器内部的一阶矩估计(动量)仍会进行密集的、完整的更新。这保证了历史梯度信息的连续性。
- 无偏校正:引入一个缩放因子 s_t = 1/p = 2,以确保在期望意义上,更新的幅度与密集更新保持一致,避免因随机丢弃而产生偏差。
理论揭秘:为什么这能奏效?
论文的核心理论贡献在于,它证明了随机掩码在期望损失中引入了一个额外的曲率惩罚项(具体公式见论文 Proposition 1)。
核心洞察:这个额外的项本质上是一种几何正则化。它会:
- 惩罚高曲率方向的更新:倾向于抑制那些在损失函数“陡峭”方向上的参数改动,从而帮助模型避开尖锐的、泛化能力差的局部最优点。
- 平滑优化轨迹:引导优化过程趋向于损失景观中更为平坦的区域,而平坦区域通常与更好的泛化性能相关联。
- 隐式实现 Sharpness-Aware 效果:达到了与 SAM(Sharpness-Aware Minimization)类似的目标,即寻找平坦最小值,但完全避免了 SAM 需要计算两次梯度的巨大开销。
更重要的是,Transformer 模型的 Hessian 矩阵(表征曲率)天然具有近似块对角的特性。SkipUpdate 所采用的“块级”掩码策略,恰好与这种主要的曲率交互方向对齐,使得这种正则化效果能够高效地发挥作用。
Magma:从随机掩码到智能掩码
尽管 SkipUpdate 效果显著,但它对所有参数块“一视同仁”地使用 50% 掩码概率。现实中,Transformer 不同层(如 Attention 层与 FFN 层)的参数具有显著的异质性——它们的梯度方差和损失曲率(Hessian 谱)差异巨大。能否做得更智能?
核心创新:动量-梯度对齐
这便是 Magma(Momentum-aligned gradient masking) 的出发点。其核心思想非常直观:
梯度更新方向与动量(历史梯度方向)一致的,更有可能是真实的信号;方向相反或冲突的,则更可能是当前步的随机噪声。
基于此,Magma 不再使用固定的 50% 概率,而是为每个参数块动态计算一个“对齐分数”,用于调制该块的掩码概率(或等效的更新缩放因子)。
对齐分数计算:
s_t^(b) = sigmoid(cosine_similarity(μ_t^(b), g_t^(b)) / τ)
其中 μ_t^(b) 是动量,g_t^(b) 是当前梯度,τ 是温度参数(通常设为 2)。
- 高对齐度 → 余弦相似度接近 1 →
s_t^(b) 接近 1 → 几乎保留完整更新。
- 低对齐度/方向冲突 → 余弦相似度接近 -1 →
s_t^(b) 接近 0 → 极大地抑制此次更新。
- 最终,Magma 通过一个平滑操作(如
s_t^(b) = 0.9 * s_{t-1}^(b) + 0.1 * ŝ_t^(b))来获得稳定的缩放因子。
关键优势:
- ✅ 零额外开销:仅需计算已有的动量和梯度的点积(余弦相似度),几乎不增加计算和内存成本。
- ✅ 即插即用:可以作为包装器,轻松与 Adam、AdamW、RMSProp、Muon 等任何自适应优化器结合。
- ✅ 理论保证:在保留 SkipUpdate 几何正则化优点的同时,通过抑制“噪声更新”增强了优化过程的稳定性。
实验结果:全面领先现有 SOTA
Llama 2 预训练 (C4 数据集)
在从 60M 到 1B 参数的 Llama 2 架构预训练中,Magma 展现了压倒性的性能优势。与强大的基线优化器相比:
在 1B 参数模型上,Adam + Magma 相比原始 Adam 降低了 19% 的验证困惑度(Perplexity),相比另一 SOTA 优化器 Muon 也降低了 9%!
RMSProp + Magma 的组合取得了所有方法中的最佳结果。这表明 Magma 提供的智能掩码机制,能够广泛提升不同自适应优化器家族的性能。
MoE 架构:复杂优化的试金石
混合专家模型(MoE)因其动态路由和负载均衡机制,其优化景观比稠密模型更为复杂。实验表明:
Muon + Magma 的组合在 Nano MoE 模型的预训练中达到了最佳性能。
- Magma 同样显著优于 Cautious Optimizer(另一种利用动量-梯度符号对齐的方法),后者由于缺乏随机掩码带来的几何正则化,性能不及 Magma。
重尾噪声环境下的鲁棒性
真实世界 LLM 训练中的梯度噪声常呈现重尾分布(即存在异常大的梯度值)。在受控实验中:
- 轻尾噪声下,Adam 和
Adam + Magma 表现相当。
- 重尾噪声下,Magma 的损失下降更快、最终性能更优,并且保持了更小的优化问题条件数。这说明其曲率感知的正则化能有效缓冲极端梯度波动带来的负面影响,提升了训练的鲁棒性。
与现有工作的本质区别
| 方法 |
核心机制 |
几何正则化 |
额外开销 |
| Cautious Optimizer |
确定性掩码(符号冲突时置零) |
❌ 无 |
无 |
| SAM |
对抗扰动,寻找平坦最小值 |
✅ 有 |
2倍梯度计算 |
| GaLore |
低秩子空间投影 |
❌ 无 |
节省内存 |
| Magma |
随机掩码 + 对齐分数调制 |
✅ 有 |
无 |
Magma 的独特之处在于,它通过随机性引入了曲率正则化,又通过对齐分数实现了对噪声更新的智能抑制,且没有引入可观的额外成本。
关键消融实验发现
- 掩码组件选择:对 Attention 层和 MLP 层同时应用 Magma 效果最佳,仅掩码 Attention 层次之,掩码所有层(包括嵌入层等)反而略有下降。这印证了针对 Transformer 异质结构进行差异化处理的重要性。
- 掩码粒度:在参数块(Block)、行(Row)、列(Column)等级别上,Magma 效果相近。出于内存效率考虑,块级掩码是推荐选择。
- 学习率鲁棒性:Magma 最实用的优势之一是其对学习率超参数极不敏感。
- Adam 或 C-Adam 等优化器,仅在很窄的学习率窗口(如 0.001-0.003)内表现良好,超出则性能急剧下降。
Adam + Magma 在宽达 0.0001 到 0.05 的学习率范围内都能保持稳定且优异的性能。这大大减轻了模型训练中繁琐的学习率调优负担。
总结与展望
谷歌提出的 Magma 优化策略,通过“随机丢弃梯度更新”这一反直觉的操作,结合动量对齐的智能调制,为大语言模型训练提供了一种简单、高效且强大的新工具。它不仅在多个标准基准上取得了 SOTA 性能,更因其卓越的鲁棒性(对噪声、对学习率)而具备了极高的实用价值。
这项研究提醒我们,在追求更复杂、更精细的优化算法时,有时回归简单、引入恰当的随机性,并结合对模型内在几何结构的洞察,反而能开辟出新的有效路径。对于从事大模型研发和训练的工程师与研究人员而言,Magma 无疑是一个值得立即尝试和关注的进展。
论文链接:
https://arxiv.org/pdf/2602.13517
On Surprising Effectiveness of Masking Updates in Adaptive Optimizers
希望这篇解读能帮助你理解 Magma 的核心思想。对于大模型训练和优化技术的最新动态,欢迎在云栈社区交流讨论。