找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2444

积分

0

好友

326

主题
发表于 前天 08:43 | 查看: 23| 回复: 0

残差连接(Residual Connection)自2015年何恺明在ResNet中提出以来,已经统治深度学习架构十年。它的核心公式 $h_l = h_{l-1} + f(h_{l-1})$ 简洁而优雅——为梯度提供恒等映射的“高速公路”,使数百层网络的训练成为可能。从ResNet到GPT,几乎所有主流架构都在使用这个看似完美的公式。

但“完美”之下隐藏着一个根本性问题:残差连接用固定的单位权重无差别地累加所有层的输出。当网络深度从几十层扩展到上百层时,这种“一视同仁”的累加策略导致早期层的贡献被逐渐稀释,深层必须学习越来越大的输出才能产生影响——这与我们构建深度网络的初衷背道而驰。

2024年底到2026年初,中国团队在这一方向上连下三刀:

  • 2024年:字节跳动的 Hyper-Connections(HC)率先打破单流残差,引入多条并行信息流
  • 2025年底:DeepSeek 的 mHC(Manifold-Constrained HC)为多流架构装上“限速器”,用流形约束解决训练不稳定问题
  • 2026年3月:Kimi 团队(Moonshot AI)的 Attention Residuals(AttnRes) 提出一个更根本的解法——别修路了,换发动机

AttnRes的核心洞察精妙而深刻:残差连接在深度维度压缩信息的方式,本质上等价于RNN在时间维度的循环。既然Transformer已经用Softmax Attention替代了时间维度的循环,为什么不能对深度维度做同样的事?

本文将从动机分析出发,系统剖析Attention Residuals的理论框架、工程实现与实验验证,并以结构化矩阵视角统一对比各类残差变体方法。

Attention Residuals架构图:深度维度注意力替代固定权重叠加

动机:PreNorm稀释与深度维度的信息压缩

残差连接的双重角色

在深入问题之前,有必要厘清残差连接在现代Transformer中扮演的双重角色:

  • 角色一:梯度通路。残差连接为梯度提供了一条不经过非线性变换的直通路径,这是深度网络可训练的基础。没有残差连接,数百层网络的梯度会在反向传播中指数衰减。
  • 角色二:信息聚合。残差连接隐含地定义了一种信息聚合策略。将递推公式展开:

    $$h_L = x + \sum_{l=1}^{L} f_l(h_{l-1})$$

    $L$ 层的隐藏状态 $h_L$ 是初始嵌入 $x$ 与所有前层输出 $f_l(h_{l-1})$ 的等权求和。换言之,标准残差连接隐式地给每一层的贡献分配了相同的权重1

这种等权累加策略在浅层网络中问题不大,但在数百层的深度Transformer中,它引发了一系列结构性问题。

PreNorm稀释问题

现代大语言模型普遍采用PreNorm(Pre-Layer Normalization)架构。在PreNorm下,标准残差连接的问题可以从三个层面理解:

  1. 幅度稀释:隐藏状态的幅度以 $O(L)$ 增长($L$为层数)。当网络有128层时,初始嵌入的相对贡献被稀释到 $1/128$。RMSNorm/LayerNorm在每层入口处将这个越来越大的聚合状态归一化到单位幅度,然后子层基于归一化后的状态计算输出。这意味着每一层只能访问所有历史信息的压缩混合体,无法选择性地检索早期层的信息
  2. 深层效力递减:要在第100层产生与第1层同等的影响力,其输出的绝对幅度需要远大于第1层——因为它要与前99层的累积和“竞争”。这导致深层网络中相当比例的层实际上可以被剪枝(pruning)而几乎不影响性能,说明这些层未能有效学习。
  3. 信息检索瓶颈:第 $l$ 层只能通过压缩后的 $h_{l-1}$ 访问所有历史信息,无法回溯到特定的早期层。这与人类认知中“需要第几步的结果就回头查”的策略形成鲜明对比。

时间-深度对偶性

AttnRes论文最精彩的理论贡献之一,是建立了时间维度与深度维度的对偶性

时间-深度对偶性对比图:RNN/Transformer vs 残差/AttnRes

  • 时间(序列)维度上:
    • RNN 用固定的循环函数 $h_t = f(h_{t-1}, x_t)$ 压缩序列信息到单个状态向量
    • Transformer 用 Softmax Attention $y_t = \sum_{s \le t} \alpha_{s,t} \cdot v_s$ 选择性地访问所有历史时间步
  • 深度维度上:
    • 标准残差 用固定权重 $h_l = h_{l-1} + f(h_{l-1})$ 将层输出压缩到单个累积状态
    • AttnRes 用 Softmax Attention $h_l = \sum_{i \le l} \alpha_{i \to l} \cdot v_i$ 选择性地检索所有历史层

这个类比揭示了一个深刻的结构性对称:残差连接就是深度维度的RNN。而我们都知道,Transformer在时间维度上用注意力替代RNN带来了多大的革命。AttnRes提出对深度维度做同样的事。

方法:Attention Residuals

Full Attention Residuals

Full AttnRes的公式清晰而优雅:

$$h_l = \sum_{i \le l} \alpha_{i \to l} \cdot v_i$$

其中注意力权重通过核函数计算:

$$\alpha_{i \to l} = \frac{\kappa(q_l, k_i)}{\sum_{j \le l} \kappa(q_l, k_j)}$$

核函数定义为:

$$\kappa(q, k) = \exp(\frac{q^T k}{\sqrt{d}})$$

每层的查询、键、值定义如下:

$$q_l = W_q^{(l)} \in \mathbb{R}^d, \quad k_i = \text{RMSNorm}(h_i) W_k, \quad v_i = h_i W_v$$

三种残差机制对比:标准残差 vs Full AttnRes vs Block AttnRes

这里有几个精心设计的技术细节值得深入分析:

  • 伪查询(Pseudo-query)设计$W_q^{(l)}$ 是每层独立的可学习参数向量,与前向计算完全解耦。这意味着注意力权重不依赖于当前的输入数据,而是在训练过程中学习到的“最优检索策略”。这个设计看似违反直觉——我们通常期望注意力权重是input-dependent的。但论文的消融实验表明,使用input-dependent查询($q_l = \text{RMSNorm}(h_{l-1})W_q$)虽然能将loss从1.737降到1.731,但引入了一个 $d \times d$ 的投影矩阵,性价比不高。更重要的是,固定查询让训练更稳定。
  • RMSNorm的关键作用:对键值 $k_i$ 做RMSNorm归一化,防止大幅度输出主导注意力权重。回忆PreNorm稀释问题——深层的输出幅度远大于浅层。如果不做归一化,注意力权重会天然偏向深层(因为幅度大),这与我们“按内容而非幅度分配权重”的设计目标矛盾。消融实验证实,去掉RMSNorm会使loss从1.737上升到1.743-1.750。
  • 零初始化策略:所有伪查询 $W_q^{(l)}$ 必须初始化为零向量。在训练开始时,这使得所有注意力权重均匀分布(因为 $q_l^T k_i$ 对所有 $i$ 相同),等效于标准残差连接(等权求和后归一化)。这保证了训练起步的稳定性,模型从标准残差出发,渐进地学习最优的深度注意力模式。
  • Softmax vs Sigmoid:为什么选择softmax而非sigmoid?消融实验显示sigmoid的loss为1.741,高于softmax的1.737。原因在于softmax的竞争归一化特性——当某些层获得更高权重时,其他层的权重自然降低。这种零和竞争隐含了稀疏性,帮助模型聚焦于最相关的层,而sigmoid的各维度独立会导致权重分散。
  • 计算复杂度:Full AttnRes的计算复杂度为 $O(L^2)$$L$ 层两两计算注意力),内存为 $O(Ld)$(存储所有层的键值)。对于 $L=128$ 的深层网络,$L^2=16384$,这个开销不可忽视。

Block Attention Residuals

Full AttnRes的 $O(L^2)$ 计算开销促使作者设计了Block AttnRes,这是一个在精度和效率间取得优秀平衡的近似方案。

$L$ 层分成 $N$ 个块,每块包含 $S$ 层:$L = N \times S$

  • 步骤一:块内累加。在每个块内部,使用标准残差连接累加层输出:
    $$b_m = \sum_{i \in \text{block}_m} h_i$$
  • 步骤二:块间注意力。对 $N$ 个块级表示做Softmax Attention:
    $$h_l = \sum_{m \le \lceil l/S \rceil} \alpha_{m \to \lceil l/S \rceil} \cdot b_m$$

这个两级结构带来了显著的效率提升:

  • 内存从 $O(Ld)$ 降到 $O(Nd)$
  • 计算从 $O(L^2)$ 降到 $O(N^2)$
  • $N=8$ 时,就能恢复Full AttnRes的大部分增益

Block AttnRes有两个优雅的退化极限:

  • $S=1$(每块1层):退化为Full AttnRes
  • $N=1$(所有层1块):退化为标准残差连接

这意味着Block AttnRes通过 $S$ 这个超参数,在标准残差和Full AttnRes之间形成了一个连续的设计空间。

结构化矩阵视角

论文最具理论深度的贡献之一,是用深度混合矩阵 $M$ 统一分析所有残差变体。$M_{i,l}$ 表示层 $i$ 对层 $l$ 输出的权重。

深度混合矩阵M可视化对比:标准残差 vs AttnRes

方法 矩阵 $M$ 的结构 矩阵类别
标准残差 全1下三角矩阵 1-semiseparable
Highway Network $M_{i,l} = \prod_{j=i+1}^{l} (1-g_j) g_i$(stick-breaking) 1-semiseparable
(m)HC m-semiseparable
DenseFormer 固定标量系数的下三角 静态跨层
Full AttnRes Dense, Rank-$L$ 动态跨层
Block AttnRes 有效秩在 $N$$N+S$ 之间 动态跨层

Semiseparable矩阵是Mamba-2论文中用来统一SSM和线性注意力的关键抽象。一个 $m$-semiseparable矩阵的任何子矩阵的秩不超过 $m$,这对应于 $m$ 个并行信息流。在序列建模中,1-semiseparable对应RNN/线性注意力的单状态循环,$m$-semiseparable对应多状态循环(如HC的多流)。

核心洞察:先前的残差变体——无论是标准残差、Highway、还是(m)HC——都是深度维度的线性注意力(因其混合矩阵是semiseparable的,可以用循环形式高效计算)。AttnRes是第一个在深度维度使用Softmax注意力的方法,其混合矩阵是dense的,具有完整的Rank-$L$表达能力。

这个视角完美呼应了时间-深度对偶性:在时间维度上,线性注意力(RNN)→ Softmax注意力(Transformer)带来了质的飞跃。AttnRes在深度维度上重现了同样的演进。

基础设施设计

一个方法论文如果只有理论和小规模实验,往往让人半信半疑。AttnRes论文最令人信服的部分之一,是详细阐述了如何在48B规模的真实训练中落地,将理论开销控制在极低水平。

训练:Cross-stage Caching

大模型训练普遍使用流水线并行(Pipeline Parallelism),将模型的层分布到不同的GPU上。AttnRes需要每层访问所有历史层的块表示,这在流水线并行下意味着跨设备通信。

  • 朴素实现的问题:每次流水线阶段转换时,需要传输所有已累积的块表示。设有 $B$ 个micro-batch、$N$ 个块、$P$ 个流水线阶段,朴素通信量为 $O(B^2 N d)$,其中 $d$ 是序列长度——这与micro-batch数量的平方成正比。
  • Cross-stage Caching优化:核心思想很简单——本地缓存已接收的块表示,后续只传输增量。每个流水线阶段维护一个缓存,记录已收到的块。当新的micro-batch到来时,只需传输当前阶段新产生的块,而非所有历史块。
  • 这个优化将峰值通信从 $O(B^2 N d)$ 降到 $O(B N d)$,改善了 $B/P$ 倍($P$是流水线的虚拟阶段数)。在典型配置下,$B/P \approx 8$,这意味着通信量减少了一个数量级。
  • 端到端训练开销:< 4%。考虑到AttnRes带来的收敛速度提升(1.25x计算优势),这个开销完全可以接受。

推理:Two-phase Computation

推理阶段面临不同的挑战——解码是逐token进行的,每个token需要经过所有层,无法利用训练时的批量并行。

Block AttnRes两阶段推理计算图

AttnRes的两阶段推理策略:

  • Phase 1(并行):批量计算块间注意力。将所有块的伪查询 $q_m$ 打包,一次性对所有块表示做注意力计算。返回加权输出和Softmax统计量(max值和log-sum-exp)。
  • Phase 2(顺序):逐层计算块内注意力,利用Online Softmax技术将Phase 1的结果与块内计算合并。Online Softmax的核心思想来自FlashAttention:通过维护running max和log-sum-exp统计量,可以将两部分的softmax结果在数值稳定的前提下合并,无需重新物化完整的注意力矩阵。

每层的内存访问量:$(N/S + 5)d$ 读 + $2d$ 写(Block AttnRes),远低于mHC的 $(6m+2)d$

端到端推理延迟开销:< 2%。

Memory-efficient Prefilling

长上下文场景下(如128K tokens),块表示的内存占用也不容忽视。AttnRes采用了序列维度分片策略:

  • 块表示沿序列维度分片到 $T$ 个Tensor Parallelism设备
  • 128K上下文的块表示内存从15GB降到约1.9GB/设备
  • 配合Chunked Prefill进一步降到 <0.3GB/设备

这些工程优化保证了AttnRes不仅是理论上优美的方法,更是生产可用的技术。

实验分析

Scaling Laws

论文在5个模型尺寸(194M到528M激活参数)上拟合了Scaling Law曲线:

Scaling Law对比折线图:Baseline vs Block AttnRes vs Full AttnRes

方法 Scaling Law 拟合公式
Baseline $L = 1.891 \times C^{-0.057}$ 标准幂律
Block AttnRes $L = 1.870 \times C^{-0.058}$ 更低截距+更陡斜率
Full AttnRes $L = 1.865 \times C^{-0.057}$ 最低截距

关键发现

  • Block AttnRes达到了1.25x计算优势——即相同性能下节省20%的计算量
  • Full与Block的差距随规模增大而缩小,说明在大规模下Block AttnRes是性价比最优的选择
  • Scaling Law的斜率(指数项)略有改善(-0.058 vs -0.057),暗示AttnRes不仅减小了常数项,还可能改善了scaling的效率

48B模型主结果

在Kimi的48B总参/3B激活的Linear MoE架构上,使用1.4T tokens训练:

Benchmark Baseline AttnRes 提升
GPQA-Diamond 36.9 44.4 +7.5
Math 53.5 57.1 +3.6
HumanEval 59.1 62.2 +3.1
C-Eval 79.6 82.5 +2.9
MMLU 73.5 74.6 +1.1

几个值得注意的观察:

  • GPQA-Diamond的巨大提升(+7.5):GPQA是需要深度推理的研究生级别科学问答。7.5个百分点的提升表明,AttnRes显著增强了模型的深度推理能力。这与我们的直觉一致——选择性的层间信息检索让模型能更好地利用中间层的计算结果。
  • 全面提升:所有benchmark都有正向提升,没有任何任务出现退化。这说明AttnRes不是特定任务的trick,而是通用的架构改进。

消融实验

16层模型上的消融实验揭示了大量设计细节:

配置 Validation Loss
Baseline(标准残差) 1.767
DenseFormer(固定标量系数) 1.767(无增益)
mHC(m并行流+混合矩阵) 1.747
Full AttnRes 1.737
Full AttnRes + input-dependent query 1.731
AttnRes + sigmoid替代softmax 1.741
AttnRes + 多头注意力(H=16) 1.752
AttnRes 去掉RMSNorm 1.743/1.750
AttnRes + 滑动窗口SWA(W=1+8) 1.764

深度值得玩味的消融结论

  • DenseFormer完全无效(1.767 = Baseline):DenseFormer使用固定的标量权重做层间加权平均(Depth-Weighted Average)。它在NeurIPS 2024上发表,声称无需增加模型大小即可提升性能。但在这个对比中完全失效。原因在于它的权重是静态的——训练后固定,无法动态适应。这与AttnRes的动态注意力权重形成鲜明对比。
  • 多头注意力反而更差(1.752 vs 1.737):这个结果非常反直觉。在标准注意力中,多头机制是关键。但在深度注意力中,最优的深度混合模式是跨通道一致的——所有hidden dimension应该使用相同的深度注意力权重。这说明深度维度的混合不同于序列维度:每个位置可以关注不同的上下文(多头有意义),但在深度维度上,哪些层重要这个决策应该是全局统一的。
  • 滑动窗口远不如全注意力(1.764 vs 1.737):限制每层只能访问附近的8层(SWA, W=1+8)导致大幅性能下降。这直接证明了远距离层访问的重要性——模型需要跨越多个块回溯到早期层。这与序列注意力中长距离依赖的重要性完全类比。

最优架构分析

一个特别有价值的实验是AttnRes对最优架构配置的影响。论文在25种 $d/L$(宽度/深度)配置上做了系统搜索。

关键发现

  • AttnRes将最优 $d/L$ 比值从60移到45——即最优架构变得更深更窄
  • 在所有25个配置上,AttnRes都优于baseline

这是一个重要的架构指导信号。标准残差由于PreNorm稀释,深层效率低下,所以最优配置偏向“宽而浅”。AttnRes解决了深层效力递减的问题,使得“窄而深”的配置变得更有效率。更深的网络意味着更多的计算步骤,在参数量相同的情况下,可以实现更复杂的计算。

训练动态分析

训练动态对比图:输出幅度随层变化与梯度分布

训练动态的观察为AttnRes的机制提供了直观的解释:

  • 输出幅度:Baseline的层输出幅度随深度单调增长——深层必须产生越来越大的输出才能在越来越大的累积和中“被看见”。AttnRes的输出幅度呈现有界周期模式——因为注意力权重的softmax归一化天然控制了幅度增长。这不仅改善了数值稳定性,也说明每层都能平等地贡献信息。
  • 梯度分布:Baseline的最早层梯度不成比例地大——这是因为反向传播时,浅层参数同时影响所有深层的输入(通过残差连接的恒等映射)。AttnRes的梯度分布更加均匀,每层获得的学习信号更加平衡。

与相关工作的统一对比

AttnRes论文的一个突出贡献是提供了一个统一视角来理解所有残差变体。我们可以从方法论的演进脉络来组织这些工作。

单状态循环方法

这类方法保持单个残差流,对应1-semiseparable混合矩阵:

  • 标准残差(He et al., 2016):$h_l = h_{l-1} + f(h_{l-1})$。固定权重,无选择性,深度维度的“最简RNN”。
  • Highway Network(Srivastava et al., 2015):引入门控机制 $g_t$。在深度维度上实现了“stick-breaking attention”——一种线性注意力的特殊形式。但门控只在相邻层之间操作,无法跨层访问。
  • DeepNorm(Wang et al., 2022):$h_l = \alpha h_{l-1} + f(h_{l-1})$,通过调整残差权重 $\alpha$ 改善深层网络的训练稳定性。本质上仍是固定权重。

这些方法的根本局限在于:它们的混合矩阵是1-semiseparable的,表达能力受限于单状态循环,无法实现选择性的远距离层访问。

多状态循环方法

这类方法将单个残差流扩展为多个并行流,对应m-semiseparable混合矩阵:

  • Hyper-Connections (HC)(字节跳动, 2024, ICLR 2025):将维度 $d$ 的残差流扩展为 $m$ 的多流,通过学习的混合矩阵在层间传递信息。HC的核心思想是让信息在多条“车道”上流动,每条车道可以承载不同粒度的信息。
  • mHC(DeepSeek, 2025):HC的训练不稳定问题源于无约束的混合矩阵会在层间累积,导致信号幅度指数增长或衰减——看似无害的每层5%放大,经过60层后变成18倍。mHC的核心创新是用流形约束解决这个问题:通过Sinkhorn-Knopp算法将混合矩阵投影到双随机矩阵流形上,保证信号增益在任意深度都接近理论理想值1.0x。代价是4倍宽残差流增加约6.7%的训练时间。

多状态方法的局限在于:尽管增加了信息流的带宽(从1流到m流),但每条流仍是顺序传播的(semiseparable结构),无法实现像Full AttnRes那样的“随机访问”。并且,多流设计引入了显著的内存和计算开销。

跨层访问方法

这类方法允许直接访问任意历史层,是AttnRes的直接前辈:

  • DenseFormer(EPFL, NeurIPS 2024):在每个Transformer Block后添加Depth-Weighted Average(DWA)操作,计算当前和所有历史表示的加权平均。权重是训练后固定的标量系数。DenseFormer的理念正确——需要跨层信息访问——但使用静态权重是其致命弱点。在AttnRes的消融中,DenseFormer式的固定系数完全没有增益(loss与baseline持平)。
  • MRLA(Multi-Resolution Layer Aggregation):使用动态权重的跨层访问。与AttnRes最相似,但具体的注意力机制设计不同。
  • AttnRes:第一个在深度维度使用完整Softmax Attention的方法。与前辈方法相比,AttnRes的优势在于:
    1. Softmax的竞争归一化产生隐含稀疏性,自动聚焦关键层
    2. RMSNorm防止幅度偏差
    3. Block设计兼顾效率与精度
    4. 完整的工程落地方案确保生产可用
方法 权重类型 信息源 矩阵结构 类别
Residual 固定 $h_{l-1}$ 1-semisep 单状态循环
Highway 动态 $h_{l-1}$ 1-semisep 单状态循环
DeepNorm 固定 $h_{l-1}$ 1-semisep 单状态循环
HC/mHC 动态 m streams m-semisep 多状态循环
DenseFormer 静态 所有层 静态跨层 跨层访问
AttnRes 动态 所有层 Dense 跨层注意力

讨论与展望

局限性分析

AttnRes并非没有局限:

  • 计算开销的权衡:尽管Block AttnRes的额外计算开销很低(<4%训练,<2%推理),但Full AttnRes的 $O(L^2)$ 复杂度在超深网络(如1000层)中可能成为瓶颈。Block设计是一个好的折中,但最优的块大小 $S$ 的选择仍需经验调优。
  • 固定查询的表达能力:伪查询 $W_q^{(l)}$ 是不依赖输入的可学习参数。虽然论文证明这在大多数场景下足够好,但某些需要根据输入内容动态调整层间信息检索策略的任务,可能会从input-dependent查询中获益更多。消融显示差距为0.006 loss,在更大模型或更复杂任务上这个差距是否会扩大值得关注。
  • 与其他架构创新的兼容性:AttnRes主要在标准Transformer和MoE架构上验证。它与其他架构创新(如线性注意力变体、状态空间模型等)的兼容性尚待验证。

研究方向展望

  • 更高效的深度注意力机制:能否设计线性复杂度的深度注意力?例如使用线性注意力核(类似序列维度上的线性Transformer)或稀疏注意力模式。滑动窗口的失败表明,这需要比简单的局部注意力更巧妙的稀疏模式。
  • 深度-宽度-注意力联合搜索:AttnRes改变了最优的深度/宽度比。一个自然的问题是:在给定计算预算下,深度、宽度、注意力头数和深度注意力粒度($S$)的最优联合配置是什么?这需要更大规模的架构搜索。
  • 与训练范式的协同:AttnRes对长序列推理(Chain-of-Thought)、强化学习微调(RLHF)等下游训练范式有何影响?更好的层间信息流是否能增强模型的推理链路?GPQA-Diamond上+7.5的提升给出了令人鼓舞的初步信号。

技术演进的启示

从更宏观的视角看,残差连接的演进路径揭示了深度学习架构设计的一个普遍范式:

  1. 先有简单有效的基础组件(残差连接, 2015)
  2. 发现其在规模化时的瓶颈(PreNorm稀释, 深层效力递减)
  3. 从其他维度的成功方案中类比解法(时间维度: RNN→Attention)
  4. 在目标维度应用同样的范式升级(深度维度: Residual→AttnRes)

这个范式提醒我们:当前架构中还有多少组件停留在“基础版”?每个维度上的信息聚合策略,都值得用同样的思路重新审视。

总结

Attention Residuals是一个理论优雅、工程扎实、实验充分的工作。它的核心贡献可以概括为三个层面:

  • 理论层面:建立了时间-深度对偶性,揭示了标准残差连接是深度维度的RNN,并自然推导出用Softmax Attention替代的方案。结构化矩阵视角统一了所有残差变体方法。
  • 方法层面:提出Full AttnRes和Block AttnRes两种实现,通过精心设计的伪查询、RMSNorm、零初始化等技术保证了训练稳定性和有效性。Block AttnRes在精度和效率间取得了极佳的平衡。
  • 工程层面:Cross-stage Caching、Two-phase Computation、Memory-efficient Prefilling三大优化使得AttnRes在48B规模模型上仅增加<4%训练和<2%推理开销,完全达到了生产部署标准。

在48B MoE模型上,AttnRes在GPQA-Diamond上取得了+7.5的提升,在所有benchmark上全面正向。Scaling Law显示1.25x的计算优势。这些结果有力地证明:十年未变的残差连接,确实到了该升级的时候。对于希望深入探讨这类架构创新落地与未来趋势的开发者,欢迎前往云栈社区的人工智能板块,与其他同行交流实践心得。




上一篇:2026年3月第三周AI行业盘点:万亿美元订单与Agent时代全面到来
下一篇:微信Clawbot开放首日:三大开源增强项目与多款AI Agent集成盘点
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 16:10 , Processed in 0.565519 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表