找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5255

积分

0

好友

711

主题
发表于 1 小时前 | 查看: 3| 回复: 0

自20世纪60年代中期以来,半导体产业一直以纳米来衡量进步。每十八个月,晶体管尺寸缩小,频率提升,每个逻辑门的成本随之下降。摩尔定律不只是一条经验观察,它更帮助建立了一整套计算栈赖以构建的产业契约。

现在,这份契约已经失效了。

在7nm节点之后,几何缩放不再能带来历史性的红利。光刻工具正逼近图形化的物理极限,EUV 光刻机的折旧成本主导了晶圆报价,单位晶体管的成本曲线已趋平——甚至在个别场景下开始反转。对那些无法获取最先进光刻技术的组织而言,这种制约来得更早,压力也更严峻。整个产业的核心问题已经彻底改变。

问题不再是“晶体管还能缩小多少?”,而是“什么应该被缩放,目标又是什么?”

过去六年,华为半导体的团队围绕这一问题,在移动 SoC、AI 加速器、系统互连和封装领域进行了深入的硅层面研究。答案并不指向另一个工艺节点,也不在于另一种晶体管架构,而在于优化目标本身的切换。

未来十年电子系统的演进,不应再由几何缩放引领,而应由时间缩放引导——在整个技术栈的每一层,系统性地降低单一特征时间常数 τ,从皮秒级的晶体管切换,直到秒级的数据中心工作负载响应。

一、几何时代的终结

在其漫长的历史中,半导体产业只有一个核心任务:将晶体管做得更小。

戈登·摩尔在1965年观察到晶体管密度大约每两年翻一番。十年后,罗伯特·登纳德的缩放理论对此做了补充,指出电压与尺寸按比例缩减时,可以维持恒定电场。几何缩放与登纳德缩放共同带来了近五十年的指数级增长:每瓦性能和每美元性能都在持续提升。

这个体系分两阶段瓦解。大约在2005年,登纳德缩放首先失效:电压不再随特征尺寸等比下降,“暗硅时代”由此开启。几何缩放则依靠 FinFET 和随后的环绕栅极器件架构延续了更久。

然而,在7nm之后,纯粹尺寸缩减的收益已趋于平坦。原因如今已被充分记录:

  • 速度饱和使得本征延迟对沟道长度的依赖关系从平方退化为线性;
  • 局部互连的寄生电阻与电容,越来越主导标准单元的延迟预算;
  • 掩模成本、EUV 折旧以及设计规则的复杂性,已将2nm节点的一颗先进芯片设计预算推高到超过10亿美元。

经济后果同样无法回避。先进节点的单位晶体管成本已经走平,而在最前沿节点上甚至开始抬头。那个“每一代都能以更低成本获得更多晶体管”的产业契约,已经不再成立。

对华为半导体来说,这一转变还伴随着额外限制:无法获得最先进的光刻工具。继续假设“下一个工艺节点会解决所有问题”已不现实。六年前,当几何路线图进入平台期,一个更根本的问题被逼到了台前——这也是整个产业终将面对的问题。

二、时间,而不是空间:摩尔时代真正的货币

如果把视角拉回到最终用户体感,摩尔定律从来都不是关于几何尺寸的。

更小的晶体管之所以提升系统性能,是因为它们切换得更快。更密集的互连之所以提升性能,是因为信号传输的距离更短。更高的集成度之所以提升性能,是因为数据跨越的边界更少。本质上,每一代技术交付的都是时间的减少

  • 从皮秒到纳秒(器件层)
  • 从纳秒到微秒(芯片层)
  • 从微秒到秒(系统层)

空间缩放仅仅是压缩时间的工具。一旦认识到这一点,一个清晰的重新定义就浮现了:时间本身应被采纳为主要度量指标。在技术栈的每一层——晶体管、电路、芯片和系统——都可以定义一个特征时间常数 τ,并将其降低作为统一的优化目标。

几何缩放于是降格为降低 τ 的众多技术之一,而不再是唯一。这一原则被称为 τ 缩放。它被提出,以接替几何摩尔定律,成为指导半导体演进的后继原则。

形式上,τ 被视为一个分层构造,分解为:
τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

每一层的 τ 由其下层构成,同时叠加该层引入的自身组织与通信开销。τ 的工作空间跨越约十二个数量级的时间(从皮秒到秒)和相当范围的空间(从纳米到公里)。在每一层,降低 τ 的机制各不相同。

晶体管层

本征切换延迟。通过以下方式应对:

  • 迁移率增强
  • 应变工程
  • 高κ/金属栅
  • GAA 架构
  • 降低局部互连寄生 R 与 C

电路层

信号路径上的 RC 传播延迟。通过以下方式应对:

  • 更低电阻率导体
  • 低κ介质
  • 通过垂直集成减少线长

芯片层

计算与存储访问延迟。通过以下方式应对:

  • 架构选择
  • 流水线深度
  • 存储层级
  • 片上 fabric

系统层

端到端消息与同步时间。通过以下方式应对:

  • 互连拓扑
  • 协议栈
  • fabric 设计

从这一分层公式中,可以推导出一个有价值的代际规律:τₙ₊₁ = τₙ / α,其中缩放因子 α 是应用相关的,并非统一常数。量产经验表明,移动设备 α 约为每年 1.3 倍,自动驾驶系统约为每年 1.5 倍,而 AI 工作负载最高可达每年 10 倍。

τ 之所以是一个强大的主要指标,而不仅仅是现有指标的重新命名,在于它横跨整个栈的统一性。频率、延迟、带宽和吞吐量,都受其所在层级的 τ 支配。工艺工程师、电路设计师和系统架构师,可以用完全相同的单位讨论同一个量。τ 提供了一套语言,使得端到端的栈协同优化成为可能。各层独立优化、最终把时序收敛当作残余结果的时代已经终结。

三、LogicFolding:移动 SoC 的验证案例

τ 缩放的第一个量产级测试发生在移动领域。智能手机 SoC 是一个特例:一颗芯片即构成整个系统。没有多插槽并行,也没有可以掩盖慢速链路的千节点 fabric。所有交付给用户的性能,都来源于单一 die、几瓦的功耗预算以及手持设备的热约束。

在2020年之后,当获取先进节点的渠道受限,核心问题就变成了:“在工艺节点固定的情况下,如何继续在一颗 die 上实现代际性能提升?”最终的答案,是一种被称为 LogicFolding 的设计方法论。

LogicFolding 将数字、模拟和存储电路划分到垂直堆叠的有源层中,以遵循时间缩放的原则,共同优化性能、功耗和面积。

数字电路可分为组合逻辑和时序逻辑。其性能上限由相邻触发器阶段之间的关键路径延迟决定,而关键路径延迟又主要由互连 RC 和路径上的门数主导。传统优化方式是将逻辑门在平面上布局,再通过多层金属走线。线越长,寄生 RC 越大,关键路径越慢。

LogicFolding 放弃了“平面”这一假设。它把关键路径上的逻辑门分布到多个垂直堆叠的有源层中,并通过超细间距的 hybrid bonding 连接。从电路设计者的角度看,这些层表现得就像一个连续的结构。单元可以跨晶圆边界分布,仿佛那只是一层额外的金属。信号线因此显著缩短,寄生 RC 急剧下降,时钟偏斜收紧。最终,芯片能在相同工艺节点下运行于更高频率。

Kirin 2026 项目的结果包括:

  • 晶体管密度:155 → 238 MTr/mm²
  • 功耗效率提升:41%
  • 最大频率提升:约13%
  • NoC 数据路径面积降低:55%
  • SRAM 工作频率提升:40%+
  • clock-buffer 数量减少:50%+
  • clock skew 降低:25%
  • 线长降低:约30%

这些收益,全部是在固定器件节点下实现的。不是通过新的光刻步骤,而是通过在三维空间中重新组织逻辑的分布。

四、从皮秒到微秒:AI 数据中心中的 τ 缩放

一个很自然的问题是:在毫瓦级智能手机场景中孕育的原则,能否在 AI 训练与推理的吉瓦级场景中依然成立?

AI 工作负载位于 τ 光谱的另一端:不是单颗芯片,而是成百上千颗芯片作为一台机器共同工作。其总计算量在过去十年中大约提升了六个数量级。答案是肯定的,但前提是:τ 必须被视为系统级目标,并施加于整个数据链条,而非仅仅在单个加速器内部。

现代 AI 系统中,超过80%的能耗来自数据移动;超过70%的系统成本源于数据存储。所以,减少数据在传输中消耗的时间,至少与减少计算时间同等重要。

τ 缩放在 AI 规模上的实现,由三个协同层构成:Unified Bus、Hi-ONE 和 3D Folding。

4.1 Unified Bus

传统系统通过 PCIe、NVLink、Ethernet、InfiniBand 以及软件栈的远程内存访问进行多层协议堆叠。每一层都带来协议转换、DMA buffer、握手和延迟开销。

Unified Bus 使用单一协议统一整个系统。它是一个完全点对点的 fabric,并原生暴露了内存语义。结果是:远程访问延迟从数十微秒骤降至约100纳秒,系统 τ 压缩了约500倍。系统开始逼近一种理想状态:System-as-One-Chip。

4.2 Hi-ONE

在 Tb/s 时代,铜缆的局限性日益凸显:SerDes 传输距离达到极限、线缆体积过于臃肿、散热与供电余量被耗尽。

Hi-ONE 是一种近封装的光引擎。它每模块提供 8 Tb/s 的带宽,将 SerDes 的传输距离从约100厘米缩短至约5厘米,同时将光信号的传输距离从不到1米扩展到100米,从而在吉瓦级 AI 数据中心中实现了高密度互连。Hi-ONE 不采用重型 DSP,而是采用模拟均衡增强型驱动器和跨阻放大器,并允许协议层容忍放宽后的误码率。这种跨层权衡显著降低了功耗、成本和集成复杂度。

4.3 N²-vs-N 困境,以及为什么 3D Folding 是必然

在传统的 2.5D AI 芯片中,算力大致与 N² 成正比,而带宽、互连和供电能力仅与 N 成正比。算力的增长速度碾压了 I/O 和供电的增长速度,这构成了经典的扇出困境。

3D Folding 通过将供电、高速存储和光 I/O 从芯片边缘迁移至芯片表面,彻底解决了这一问题。一旦位于表面,这些资源也开始按 N² 的规模缩放。封装因此从“逻辑 die + 周边配套”的模式,演变为“存储、fabric、供电与逻辑共同缩放的垂直集成堆栈”。

路线图显示,约在2030年前后,Ascend 990 将把 LogicFolding 引入 AI 加速器。从那时起,3D Folding 将成为直到2035年前承载性能增长因子 α 的主要方式。预计到2035年,AI 硬件的集成度将提升超过100倍。

五、Logic 与 Memory:从解耦到重新融合

在 8086 时代,业界通过标准化的内存总线将处理器与存储器解耦。而 AI 时代正在逆转这一进程。HBM、hybrid bonding 与 3D stacked SRAM 表明,数据移动与计算本身同样关键。

因此,逻辑与存储再次被推向紧密的物理集成。随着两者的融合,供应链中的影响力正在向存储厂商和封装厂商倾斜。长期的成功将属于那些能在技术上融合逻辑与存储,并在经济上建立长期协作关系的参与者。

六、开放挑战

工具链与方法论

今天的 EDA 工具是为二维时代开发的。完整规模的 LogicFolding 要求:将多个 die 作为一个连续实体进行设计、cell 粒度的逻辑划分、统一的成本函数布局,以及 die 到 die 的时序收敛。一个原生支持 τ、多物理场、原生 3D 的工具链,将是未来十年最重要的基础设施投资。

晶圆间工艺波动

LogicFolding 会绑定来自不同晶圆批次的硅片。因此,阈值电压 Vth、驱动电流和互连 RC 的波动会显著增加。这就需要智能冗余、自适应补偿以及一个具备 τ 感知能力的签核流程。

垂直互连开销

每一个 hybrid bond 与 TSV 都会引入额外的 RC 惩罚。因此必须满足一个不等式:“缩短互联线长带来的收益,大于 TSV 引入的 RC 成本”。

能源

τ 是描述时间的行为定律,而非描述能量的焦耳定律。因此 τ 缩放必须与内存语义 fabric、共封装光学、背面供电、近存计算和动态电压频率调节等技术共同推进。

七、六年之后,十年之前

2020年至2026年间,华为半导体量产了381颗芯片。在这一过程中,LogicFolding 已在移动 SoC 中得到验证,Unified Bus 与 Hi-ONE 也已在 AI 系统中验证,系统级 τ 已从微秒级压缩至纳秒级。

未来的路线图包括:CPU 性能核心向 4GHz 以上推进、Kirin SoC 能效在三至五年内翻倍,以及到2035年 AI 硬件集成度提升超过100倍。

最核心的主张已经明晰:τ 缩放是自登纳德缩放以来,第一个为整个计算栈建立统一优化目标的缩放原则。它意味着未来竞争的核心,不再仅仅是先进制程节点,而是封装、存储带宽、光 I/O、系统 fabric、3D 集成和跨层协同优化。

整个行业正在从“通过微缩化获得加速”,转向“通过跨层 τ 优化获得加速”。在未来六到十年里,那些将 τ 作为首要目标的公司、研究团队与生态系统,将定义下一代计算体系的形态。


τ,本质上是一个系统完成一次“有效信息传递或状态变化”所需的特征时间常数。你可以把它理解为:“系统完成一次有效动作所花的时间”。未来先进计算的核心竞争,将从“谁拥有最先进的晶体管”,转向“谁能把整个系统的信息时间压缩到最小”。





上一篇:从零构建高质量 Skill:万字长文实战教程与架构拆解
下一篇:做了管理才知道,没人可以轻松“翘二郎腿收工资”
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-26 04:32 , Processed in 0.784738 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表