云栈社区»论坛 › 站务中心「 Forum Service 」 › 半导体时间缩放理论：下一代电子系统的核心优化法则 ...

发回帖发新帖

5616 积分	0 好友	740 主题

发消息

半导体时间缩放理论：下一代电子系统的核心优化法则

发表于 2026-5-26 03:01:57 | 查看: 100| 回复: 0

自20世纪60年代中期以来，半导体产业一直以纳米来衡量进步。每十八个月，晶体管尺寸缩小，频率提升，每个逻辑门的成本随之下降。摩尔定律不只是一条经验观察，它更帮助建立了一整套计算栈赖以构建的产业契约。

现在，这份契约已经失效了。

在7nm节点之后，几何缩放不再能带来历史性的红利。光刻工具正逼近图形化的物理极限，EUV 光刻机的折旧成本主导了晶圆报价，单位晶体管的成本曲线已趋平——甚至在个别场景下开始反转。对那些无法获取最先进光刻技术的组织而言，这种制约来得更早，压力也更严峻。整个产业的核心问题已经彻底改变。

问题不再是“晶体管还能缩小多少？”，而是“什么应该被缩放，目标又是什么？”

过去六年，华为半导体的团队围绕这一问题，在移动 SoC、AI 加速器、系统互连和封装领域进行了深入的硅层面研究。答案并不指向另一个工艺节点，也不在于另一种晶体管架构，而在于优化目标本身的切换。

未来十年电子系统的演进，不应再由几何缩放引领，而应由时间缩放引导——在整个技术栈的每一层，系统性地降低单一特征时间常数 τ，从皮秒级的晶体管切换，直到秒级的数据中心工作负载响应。

一、几何时代的终结

在其漫长的历史中，半导体产业只有一个核心任务：将晶体管做得更小。

戈登·摩尔在1965年观察到晶体管密度大约每两年翻一番。十年后，罗伯特·登纳德的缩放理论对此做了补充，指出电压与尺寸按比例缩减时，可以维持恒定电场。几何缩放与登纳德缩放共同带来了近五十年的指数级增长：每瓦性能和每美元性能都在持续提升。

这个体系分两阶段瓦解。大约在2005年，登纳德缩放首先失效：电压不再随特征尺寸等比下降，“暗硅时代”由此开启。几何缩放则依靠 FinFET 和随后的环绕栅极器件架构延续了更久。

然而，在7nm之后，纯粹尺寸缩减的收益已趋于平坦。原因如今已被充分记录：

速度饱和使得本征延迟对沟道长度的依赖关系从平方退化为线性；
局部互连的寄生电阻与电容，越来越主导标准单元的延迟预算；
掩模成本、EUV 折旧以及设计规则的复杂性，已将2nm节点的一颗先进芯片设计预算推高到超过10亿美元。

经济后果同样无法回避。先进节点的单位晶体管成本已经走平，而在最前沿节点上甚至开始抬头。那个“每一代都能以更低成本获得更多晶体管”的产业契约，已经不再成立。

对华为半导体来说，这一转变还伴随着额外限制：无法获得最先进的光刻工具。继续假设“下一个工艺节点会解决所有问题”已不现实。六年前，当几何路线图进入平台期，一个更根本的问题被逼到了台前——这也是整个产业终将面对的问题。

二、时间，而不是空间：摩尔时代真正的货币

如果把视角拉回到最终用户体感，摩尔定律从来都不是关于几何尺寸的。

更小的晶体管之所以提升系统性能，是因为它们切换得更快。更密集的互连之所以提升性能，是因为信号传输的距离更短。更高的集成度之所以提升性能，是因为数据跨越的边界更少。本质上，每一代技术交付的都是时间的减少：

从皮秒到纳秒（器件层）
从纳秒到微秒（芯片层）
从微秒到秒（系统层）

空间缩放仅仅是压缩时间的工具。一旦认识到这一点，一个清晰的重新定义就浮现了：时间本身应被采纳为主要度量指标。在技术栈的每一层——晶体管、电路、芯片和系统——都可以定义一个特征时间常数 τ，并将其降低作为统一的优化目标。

几何缩放于是降格为降低 τ 的众多技术之一，而不再是唯一。这一原则被称为 τ 缩放。它被提出，以接替几何摩尔定律，成为指导半导体演进的后继原则。

形式上，τ 被视为一个分层构造，分解为：
τ = f(τ_transistor, τ_circuit, τ_chip, τ_system)

每一层的 τ 由其下层构成，同时叠加该层引入的自身组织与通信开销。τ 的工作空间跨越约十二个数量级的时间（从皮秒到秒）和相当范围的空间（从纳米到公里）。在每一层，降低 τ 的机制各不相同。

晶体管层

本征切换延迟。通过以下方式应对：

迁移率增强
应变工程
高κ/金属栅
GAA 架构
降低局部互连寄生 R 与 C

电路层

信号路径上的 RC 传播延迟。通过以下方式应对：

更低电阻率导体
低κ介质
通过垂直集成减少线长

芯片层

计算与存储访问延迟。通过以下方式应对：

架构选择
流水线深度
存储层级
片上 fabric

系统层

端到端消息与同步时间。通过以下方式应对：

互连拓扑
协议栈
fabric 设计

从这一分层公式中，可以推导出一个有价值的代际规律：τₙ₊₁ = τₙ / α，其中缩放因子 α 是应用相关的，并非统一常数。量产经验表明，移动设备 α 约为每年 1.3 倍，自动驾驶系统约为每年 1.5 倍，而 AI 工作负载最高可达每年 10 倍。

τ 之所以是一个强大的主要指标，而不仅仅是现有指标的重新命名，在于它横跨整个栈的统一性。频率、延迟、带宽和吞吐量，都受其所在层级的 τ 支配。工艺工程师、电路设计师和系统架构师，可以用完全相同的单位讨论同一个量。τ 提供了一套语言，使得端到端的栈协同优化成为可能。各层独立优化、最终把时序收敛当作残余结果的时代已经终结。

三、LogicFolding：移动 SoC 的验证案例

τ 缩放的第一个量产级测试发生在移动领域。智能手机 SoC 是一个特例：一颗芯片即构成整个系统。没有多插槽并行，也没有可以掩盖慢速链路的千节点 fabric。所有交付给用户的性能，都来源于单一 die、几瓦的功耗预算以及手持设备的热约束。

在2020年之后，当获取先进节点的渠道受限，核心问题就变成了：“在工艺节点固定的情况下，如何继续在一颗 die 上实现代际性能提升？”最终的答案，是一种被称为 LogicFolding 的设计方法论。

LogicFolding 将数字、模拟和存储电路划分到垂直堆叠的有源层中，以遵循时间缩放的原则，共同优化性能、功耗和面积。

数字电路可分为组合逻辑和时序逻辑。其性能上限由相邻触发器阶段之间的关键路径延迟决定，而关键路径延迟又主要由互连 RC 和路径上的门数主导。传统优化方式是将逻辑门在平面上布局，再通过多层金属走线。线越长，寄生 RC 越大，关键路径越慢。

LogicFolding 放弃了“平面”这一假设。它把关键路径上的逻辑门分布到多个垂直堆叠的有源层中，并通过超细间距的 hybrid bonding 连接。从电路设计者的角度看，这些层表现得就像一个连续的结构。单元可以跨晶圆边界分布，仿佛那只是一层额外的金属。信号线因此显著缩短，寄生 RC 急剧下降，时钟偏斜收紧。最终，芯片能在相同工艺节点下运行于更高频率。

Kirin 2026 项目的结果包括：

晶体管密度：155 → 238 MTr/mm²
功耗效率提升：41%
最大频率提升：约13%
NoC 数据路径面积降低：55%
SRAM 工作频率提升：40%+
clock-buffer 数量减少：50%+
clock skew 降低：25%
线长降低：约30%

这些收益，全部是在固定器件节点下实现的。不是通过新的光刻步骤，而是通过在三维空间中重新组织逻辑的分布。

四、从皮秒到微秒：AI 数据中心中的 τ 缩放

一个很自然的问题是：在毫瓦级智能手机场景中孕育的原则，能否在 AI 训练与推理的吉瓦级场景中依然成立？

AI 工作负载位于 τ 光谱的另一端：不是单颗芯片，而是成百上千颗芯片作为一台机器共同工作。其总计算量在过去十年中大约提升了六个数量级。答案是肯定的，但前提是：τ 必须被视为系统级目标，并施加于整个数据链条，而非仅仅在单个加速器内部。

现代 AI 系统中，超过80%的能耗来自数据移动；超过70%的系统成本源于数据存储。所以，减少数据在传输中消耗的时间，至少与减少计算时间同等重要。

τ 缩放在 AI 规模上的实现，由三个协同层构成：Unified Bus、Hi-ONE 和 3D Folding。

4.1 Unified Bus

传统系统通过 PCIe、NVLink、Ethernet、InfiniBand 以及软件栈的远程内存访问进行多层协议堆叠。每一层都带来协议转换、DMA buffer、握手和延迟开销。

Unified Bus 使用单一协议统一整个系统。它是一个完全点对点的 fabric，并原生暴露了内存语义。结果是：远程访问延迟从数十微秒骤降至约100纳秒，系统 τ 压缩了约500倍。系统开始逼近一种理想状态：System-as-One-Chip。

4.2 Hi-ONE

在 Tb/s 时代，铜缆的局限性日益凸显：SerDes 传输距离达到极限、线缆体积过于臃肿、散热与供电余量被耗尽。

Hi-ONE 是一种近封装的光引擎。它每模块提供 8 Tb/s 的带宽，将 SerDes 的传输距离从约100厘米缩短至约5厘米，同时将光信号的传输距离从不到1米扩展到100米，从而在吉瓦级 AI 数据中心中实现了高密度互连。Hi-ONE 不采用重型 DSP，而是采用模拟均衡增强型驱动器和跨阻放大器，并允许协议层容忍放宽后的误码率。这种跨层权衡显著降低了功耗、成本和集成复杂度。

4.3 N²-vs-N 困境，以及为什么 3D Folding 是必然

在传统的 2.5D AI 芯片中，算力大致与 N² 成正比，而带宽、互连和供电能力仅与 N 成正比。算力的增长速度碾压了 I/O 和供电的增长速度，这构成了经典的扇出困境。

3D Folding 通过将供电、高速存储和光 I/O 从芯片边缘迁移至芯片表面，彻底解决了这一问题。一旦位于表面，这些资源也开始按 N² 的规模缩放。封装因此从“逻辑 die + 周边配套”的模式，演变为“存储、fabric、供电与逻辑共同缩放的垂直集成堆栈”。

路线图显示，约在2030年前后，Ascend 990 将把 LogicFolding 引入 AI 加速器。从那时起，3D Folding 将成为直到2035年前承载性能增长因子 α 的主要方式。预计到2035年，AI 硬件的集成度将提升超过100倍。

五、Logic 与 Memory：从解耦到重新融合

在 8086 时代，业界通过标准化的内存总线将处理器与存储器解耦。而 AI 时代正在逆转这一进程。HBM、hybrid bonding 与 3D stacked SRAM 表明，数据移动与计算本身同样关键。

因此，逻辑与存储再次被推向紧密的物理集成。随着两者的融合，供应链中的影响力正在向存储厂商和封装厂商倾斜。长期的成功将属于那些能在技术上融合逻辑与存储，并在经济上建立长期协作关系的参与者。

六、开放挑战

工具链与方法论

今天的 EDA 工具是为二维时代开发的。完整规模的 LogicFolding 要求：将多个 die 作为一个连续实体进行设计、cell 粒度的逻辑划分、统一的成本函数布局，以及 die 到 die 的时序收敛。一个原生支持 τ、多物理场、原生 3D 的工具链，将是未来十年最重要的基础设施投资。

晶圆间工艺波动

LogicFolding 会绑定来自不同晶圆批次的硅片。因此，阈值电压 Vth、驱动电流和互连 RC 的波动会显著增加。这就需要智能冗余、自适应补偿以及一个具备 τ 感知能力的签核流程。

垂直互连开销

每一个 hybrid bond 与 TSV 都会引入额外的 RC 惩罚。因此必须满足一个不等式：“缩短互联线长带来的收益，大于 TSV 引入的 RC 成本”。

能源

τ 是描述时间的行为定律，而非描述能量的焦耳定律。因此 τ 缩放必须与内存语义 fabric、共封装光学、背面供电、近存计算和动态电压频率调节等技术共同推进。

七、六年之后，十年之前

2020年至2026年间，华为半导体量产了381颗芯片。在这一过程中，LogicFolding 已在移动 SoC 中得到验证，Unified Bus 与 Hi-ONE 也已在 AI 系统中验证，系统级 τ 已从微秒级压缩至纳秒级。

未来的路线图包括：CPU 性能核心向 4GHz 以上推进、Kirin SoC 能效在三至五年内翻倍，以及到2035年 AI 硬件集成度提升超过100倍。

最核心的主张已经明晰：τ 缩放是自登纳德缩放以来，第一个为整个计算栈建立统一优化目标的缩放原则。它意味着未来竞争的核心，不再仅仅是先进制程节点，而是封装、存储带宽、光 I/O、系统 fabric、3D 集成和跨层协同优化。

整个行业正在从“通过微缩化获得加速”，转向“通过跨层 τ 优化获得加速”。在未来六到十年里，那些将 τ 作为首要目标的公司、研究团队与生态系统，将定义下一代计算体系的形态。

τ，本质上是一个系统完成一次“有效信息传递或状态变化”所需的特征时间常数。你可以把它理解为：“系统完成一次有效动作所花的时间”。未来先进计算的核心竞争，将从“谁拥有最先进的晶体管”，转向“谁能把整个系统的信息时间压缩到最小”。

上一篇：从零构建高质量 Skill：万字长文实战教程与架构拆解
下一篇：做了管理才知道，没人可以轻松“翘二郎腿收工资”

时间缩放, 半导体, 芯片设计, 先进封装, 3D集成