今日,在 IEEE 国际电路与系统研讨会(ISCAS 2026)上,华为公司董事、半导体业务部总裁何庭波发表题为《半导体新路径探索与实践》的主旨演讲,正式提出指导半导体产业发展的全新原则 —— 韬(τ)定律。该定律核心是以“时间(τ)缩微”替代传统“几何缩微”,作为半导体与电子系统演进的新指导方向:通过逻辑折叠等创新技术,持续压缩信号传播时延、稳步提升晶体管密度,推动半导体与电子系统实现可持续演进。
同日,何庭波在中国科学院科技论文预发布平台(ChinaXiv)发表署名论文《多层电子系统的时间缩微理论(A Time Scaling Theory for Multi-Layer Electronic Systems)》,系统阐述τ定律的理论框架与技术路径。
论文原文如下:
摘要
六十年来,摩尔定律的几何缩放驱动了半导体行业的进步。如今,这一行业共识已不再成立:纯粹的尺寸缩小带来的回报已经趋于平缓,领先节点的芯片设计预算已超过每颗芯片十亿美元,而最先进节点上每晶体管成本也不再下降。本文提出了一种继任的缩放原则——τ缩放——它采用时间本身(而非晶体管面积)作为进步的主要度量标准。该原则将一个统一的优化目标——特征时间常数τ——应用于从开关晶体管到数据中心工作负载的十二个数量级范围内。文章展示了两项量产级验证成果。在一款移动 SoC 上,LogicFolding(一种将数字、模拟和存储电路分区到垂直堆叠有源层的设计方法)在固定器件节点上实现了 55% 的晶体管密度阶跃提升和 41% 的能效提升。在 AI 系统 上,通过协同设计的堆栈(包括内存语义的统一总线架构、近封装光 I/O Hi-ONE,以及边到面 3D Folding),预计到 2035 年硬件集成度将增长超过 100 倍。更深层次的论点在于方法论:τ缩放是自 Dennard 缩放以来第一个为整个计算堆栈建立统一优化目标的缩放原则。
引言
自20世纪60年代中期以来,半导体行业一直以纳米为单位衡量进展。每18个月,晶体管缩小,频率上升,每个逻辑门的成本下降。摩尔定律既是一种经验观察,又有助于建立一个行业契约,整个计算栈都建立在这个契约之上。该行业契约已不再成立。超越7nm节点,几何缩放不再带来历史红利。光刻工具正在接近图案化的物理极限,EUV折旧主导着晶圆成本,每晶体管的价格曲线已经变平,在某些情况下甚至发生了逆转。对于那些使用最先进光刻技术受到限制的组织来说,这种限制更早地变得具有约束力,并且更加严重。
因此,该行业的核心问题发生了变化。它不再是“晶体管还能再收缩多少?”而是“应该缩放什么,针对什么目标?”
在过去六年中,作者在华为半导体公司的团队在移动 SoC、AI 加速器、系统结构和封装的硅中研究了这个问题。结论是,答案并不在于另一个节点,也不在于另一种晶体管架构,而是在于主要优化目标本身的变化。这种观点认为,电子系统发展的下一个十年不应以几何尺度为指导,而应以时间尺度为指导——在堆栈的每一层系统地减少单个特征时间常数τ,从皮秒内的晶体管切换到秒内响应的数据中心工作负载。
根据2020年5月至2026年5月间投入批量生产的381块芯片的经验教训,τ标度的案例在下文中发展为科学方法论和工业路线图。
1. 几何缩放时代的终结
在其历史的大部分时间里,半导体工业只有一项工作:使晶体管更小。戈登·摩尔(Gordon Moore)1965年的观察——晶体管密度大约每两年翻一番——在十年后得到了罗伯特·登纳德(Robert Dennard)的标度理论的补充,该理论建立了电压和尺寸的比例收缩可以保持恒定的电场。近五十年来,几何缩放和 Dennard 缩放一起在每瓦性能和每美元性能方面实现了指数级的改进。
这种安排分两个阶段展开。大约在2005年,Dennard扩展率先打破:电压不再与功能大小成比例地扩展,暗硅时代开始了。几何缩放持续的时间更长,由 FinFET 维持,随后由 GAA 器件架构维持。然而,超过7nm时,纯维标度的返回已经变平。其原因现在已被很好地记录在案:速度饱和将固有延迟对信道长度的依赖性从二次降至线性;局部互连的寄生电阻和电容越来越支配标准小区延迟预算;掩模成本、EUV折旧和设计规则复杂性使前沿芯片设计预算在2nm节点的每个芯片上超过10亿美元。
经济后果同样不可避免。在高级节点,每个晶体管的成本已趋于平缓,在领先地位,现在正在上升。维持了过去五十年的行业契约——每一代都有更多的晶体管以更低的成本——不再成立。
对于华为半导体,这一转变带来了额外的限制:限制访问最先进的光刻模具。假设另一个节点将解决该问题,则不再成立。六年前,几何路线图停滞不前,迫使出现了一个更根本的问题——回顾过去,整个行业最终将不得不面对这个问题。
2. 时间,而非空间:摩尔时代的真正货币
摩尔定律对最终用户的本质影响,从根本上讲从来都不是关于几何的。较小的晶体管提高了系统性能,因为它们切换得更快。密度更高的互连提高了性能,因为信号通过的距离更短。更高的集成提高了性能,因为数据跨越的边界更少。从本质上讲,每一代所提供的是时间的减少——设备上的皮秒到纳秒,芯片上的纳秒到微秒,系统上的微秒到秒。空间尺度仅用作压缩时间的工具。
一旦认识到这一点,一个显而易见的重新框架便呈现出来。时间本身应被作为主要度量标准。可以在堆栈的每一层(晶体管、电路、芯片、系统)定义一个特征时间常数τ,并将其缩减作为统一的优化目标。几何缩放则成为缩减τ的众多技术之一,而非唯一的技术。
这一原则被称为τ缩放,本文提出将其作为几何摩尔缩放的继任者,成为半导体演进的指导原则。形式上,τ被视为一个分层构造,分解为:
$τ = f(τ_{transistor}, τ_{circuit}, τ_{chip}, τ_{system})$
其中,$τ_{transistor}$、$τ_{circuit}$、$τ_{chip}$ 和 $τ_{system}$ 分别代表晶体管、电路、芯片和系统层的时间常数。每一层的τ由其下层的τ以及该层引入的组织和通信开销共同构成。τ的工作空间跨越约十二个数量级的时间(皮秒到秒)以及相当范围的空间(纳米到千米)。
在每一层,都有不同的机制可用于缩减τ:
-
晶体管:本征开关延迟,通过迁移率增强、应变工程、高k金属栅极、GAA架构以及日益重要的局部互连寄生R和C(目前数倍于本征通过时间)的减小来应对。
-
电路:信号路径上的RC传播延迟,通过更低电阻率的导体、低k电介质,以及最重要的——通过垂直集成缩短线长来应对。
-
芯片:计算和内存访问延迟,通过架构选择、流水线深度、内存层次结构和片上互连架构来应对。
-
系统:端到端的消息传递和同步时间,通过互连拓扑、协议栈和互连架构设计来应对。
从这个分层公式中出现了一个有用的世代规则:
$τ_{n+1} = τ_n / α$
其中缩放因子α是特定于应用的,而不是通用的。迄今为止的生产经验表明,功率受限的移动设备每年α≈1.3×;对于安全关键的自主系统,每年α≈1.5×;人工智能工作负载每年α≈10×,其中吞吐量直接转化为经济价值。
τ之所以成为一个有用的主要度量,而不是对现有度量的重新标记,是因为它在整个堆栈中都是相同的度量。频率、延迟、带宽和吞吐量都由各自层的τ控制。工艺技术专家、电路设计师和系统架构师可以用相同的单位讨论相同的数量。τ是实现端到端堆栈协同优化的语言,每层独立优化的时代已经结束,时间作为残差出现。
3. LogicFolding(逻辑折叠):一个移动SoC的验证点
τ缩放的第一个量产级测试是在移动领域进行的。智能手机 SoC 是一个特例:单个芯片构成了整个系统。多插槽并行不可用;没有千节点互连网络可以掩盖慢速链路。交付给用户的所有性能都源自单个芯片,在几瓦的功耗范围内,受手持设备外形尺寸的热限制约束。
2020年后,当获取领先节点的途径受限时,关键问题变成:在节点固定的情况下,如何在一颗芯片上持续提供一代又一代的改进?
涌现出的答案被称为“LogicFolding”。
LogicFolding是一种设计方法,它将数字、模拟和存储电路分区到垂直堆叠的有源层中,遵循时间缩放原理,共同优化性能、功耗和面积。
数字电路分为组合逻辑(寄存器之间的布尔网络)和时序逻辑(保存状态的双稳态触发器)。数字系统的性能上限由相邻触发器级之间的关键路径延迟决定,而该延迟又主要由该路径上的互连RC和门数量决定。传统优化将门排列在平面上,并通过上方的金属层堆叠布线;导线越长,寄生RC越大,关键路径越慢。
LogicFolding抛弃了平面假设。关键路径上的门被分布到两个(以及最终更多)垂直堆叠的有源层中,通过超精细间距的混合键合连接。从电路设计师的角度看,这两层表现为一个单一的连续结构,单元如同额外的金属层一般跨越晶圆边界分布。信号线大大缩短,寄生RC急剧下降,时钟偏移减小,芯片在相同器件节点下以更高的时钟频率运行。
为了实现这些增益,LogicFolding的混合键合间距与顶层金属间距之间的比率最好保持较低——实际中大约低于3,比率越低通常越好。以当今约720nm的顶层金属间距计算,这意味着混合键合间距需要低于2μm——理想情况下比率约为1,此时键合接口处的“鸟笼”布线开销基本消失。实现这一间距,以及所需的叠对精度(<0.5μm)、TSV缩放(临界尺寸和禁入区小于1.5μm,间距小于6μm)和良率(通过智能冗余接近100%),需要在供应商和合作伙伴生态系统中进行多年的工艺开发努力。
在麒麟2026上测得的具体结果如下:
-
晶体管密度单代步进式地从155 MT/mm²提高到238 MT/mm²(晶体管密度采用公式 2/CPP×单元高度 计算;麒麟 SoC 设计的面积利用率为68%)——这一提升幅度以往需要三年的几何缩放。
-
SoC 性能核心的能效提高了41%,最高时钟频率提高了近13%。
-
一条跨越上下两层构建的高速全局片上网络数据通路,其数据通路面积减少了55%,电源传输稳定性得到改善。
-
一种硅后时钟偏移调整方案独立贡献了超过5%的 SoC 性能提升。
-
对于 SRAM(其访问速度、每比特能量和面积强烈依赖于位线和字线长度),LogicFolding缩短了关键路径,降低了每比特能量,并将工作频率提高了超过40%。
-
在一个代表性处理核心上,双层折叠架构使时钟缓冲器数量减少超过50%,时钟偏移降低25%,线长缩短约30%。
这些增益均在固定器件节点上实现,并非通过新的光刻步骤获得,而是源于逻辑在三维空间中分布的一种拓扑重组。
在麒麟2026中量产的 LogicFolding 实现是刻意保守的:混合键合间距达到1.5μm;TSV 接入点仅比顶层金属低一步;折叠仅沿关键路径选择性应用,而非整个设计。即便如此,今年 CPU 性能核心频率仍恢复到3.1 GHz。
预计未来十年,LogicFolding 将从局部关键路径折叠演进为全面、多层折叠——每个封装三个、四个甚至更多有源层——这将由更低温度的混合键合(放宽层间热预算)以及 TSV 接入点从顶层金属下移到 M6 层(可释放超过30%的高层布线资源)所推动。从2026年到2035年,晶体管密度预计将向400 MT/mm²及以上迈进。同时,LogicFolding 使麒麟能够大幅提升 CPU 核心频率,并为达到4 GHz及以上铺平道路(表1)。该路线图可行,且在成本上经济可行。
表1. 麒麟CPU性能核心工作频率趋势
提要栏A — LogicFolding概览
- 混合键合间距:低于2μm(麒麟2026为1.5μm;目标比率≈1)
- 叠对精度:低于0.5μm
- TSV 临界尺寸/禁入区:低于1.5μm;间距低于6μm;失效率 < 100 ppm;修复率99.9%
- 良率:通过智能冗余接近100%
- 晶体管密度:单步从155提升到238 MT/mm²
- SoC P核能效/频率增益:+41% / +13%
- SRAM工作频率:+40%
- 代表核心上时钟缓冲器数量/时钟偏移/线长:-50% / -25% / -30%
4. 从皮秒到微秒:AI数据中心中的τ缩放
一个自然的问题是:在毫瓦级智能手机领域发展的原理,是否能够经得起千兆瓦级 AI 训练和推理领域的检验?AI 工作负载占据了τ频谱的另一端:不是单个芯片,而是成百上千个芯片协同如一,过去十年总计算能力增长了约六个数量级。答案是肯定的——只要τ被视为一个系统级目标,并应用于整个链条,而非仅局限于单个加速器内。
有两个事实决定了 AI 侧τ论点的核心。第一, AI 系统 持续增长——从一颗芯片,到几十颗,到几百颗,并且越来越多地达到数万颗。第二,现代 AI 系统的能量预算和材料预算主要由数据、而非计算主导。在一个大型 AI 集群中,80%以上的能量被数据移动消耗;超过70%的系统成本分配给数据存储。其含义是直接的:减少数据在芯片之间、机架之间和封装内的传输时间,至少与减少计算花费的计算时间一样重要。
τ缩放在AI规模上通过三个协同层实现:一个系统互连架构(统一总线),一个近封装光学引擎(Hi-ONE),以及封装本身的拓扑重组(3D Folding)。
4.1 统一总线 — 一个τ优先的系统互连架构
传统的多节点、多加速器架构通过多个叠加的协议传输数据:PCIe到主机,NVLink或私有架构在机箱内,以太网或InfiniBand在机箱间,以及上层的软件栈远程内存访问。每一层都伴随着协议转换、额外串行化、额外的DMA缓冲和进一步的握手。每次转换都增加延迟、降低可靠性并增加成本。
统一总线用一个单一的协议替换了这一堆栈,该协议在机箱内外无缝运行——一个完全点对点的架构,在整个系统中原生暴露内存语义。数据移动被简化为内存语义层上的免转换、点对点传输,硬件管理的一致性替代了软件栈的消息传递。
实测收益约为两个数量级:端到端的远程访问延迟从TCP/IP类堆栈典型的几十微秒降至约100纳秒——沿主要通信轴的系统τ减少了约500倍。在机架规模上,这使系统渐近地接近一个单一的、架构一致性的机器——内部称之为“系统即单芯片”。
4.2 Hi-ONE — 封装级光I/O
一旦通信延迟降低,下一个瓶颈便会浮现。在单个机架内增加芯片密度会将功率密度和可靠性推过极限——同时也会使电串行/解串器超出其能力范围。在每颗AI芯片400Gb/s时,铜缆仍被良好理解和可靠。
在每颗芯片多达Tb/s数据传输时,铜缆在物理上变得不切实际:SerDes传输距离缩短,线缆变得笨重到无法安装,面板安装变得不可行,热和电源传输余量耗尽。
华为半导体开发的方法是高密度光互连节点引擎 Hi-ONE,一个近封装光学引擎,每个模块提供8 Tb/s带宽,与一颗AI芯片在单条光链路上的UB带宽匹配。它将所需的 SerDes 传输距离从约100厘米缩短到约5厘米,消除了笨重的线缆,并将传输距离从不足1米扩展到100米,使分布式、千兆瓦级数据中心的密集互连在物理上成为可能。
Hi-ONE 的设计理念本身也是一个τ缩放的论点。不同于采用重DSP来追求高信号保真度,Hi-ONE 采用线性方法——一个模拟均衡增强型驱动器和跨阻放大器——并允许UB协议容忍故意放松的误码率。这种协议层与物理层之间的跨层权衡降低了功耗、成本和集成复杂度,并体现了τ优先方法论所奖励的跨层权衡。
4.3 N²与N的困境,以及为何3D Folding不可避免
AI加速器不会止步于2.5D扇出的最深层原因是几何上的,需要明确阐述,因为它决定了2030年后的路线图。
在传统的2.5D AI芯片中,逻辑芯片位于封装中心,HBM堆栈和SerDes排列在其边缘,电压调节器环绕封装。每个存储信号、每个互连信号、每安培供电电流都必须穿越芯片边缘才能到达内部的计算资源。如果芯片边长为N,则:
- 计算容量比例为N²(面积)。
- 但内存带宽、互连和功率传输——全部由2.5D扇出沿边缘进行——仅缩放为N(周长)。
这些二次曲线和线性曲线之间不断扩大的分歧构成扇出困境,它解释了2.5D扩展的停滞,而不依赖于底层逻辑节点的攻击性。没有晶体管级别的改进可以弥补拓扑缺陷。
3D Folding通过将边缘束缚的资源转移到表面上解决了这一困境。供电(通过背面供电和集成电压调节器)、高速内存(通过混合键合到逻辑)和光I/O(通过近封装Hi-ONE)全部从周长迁移到垂直表面——一旦位于表面上,它们将按 N² 缩放,与计算能力的二次增长节奏匹配。封装不再是一个逻辑芯片被存储和SerDes的周长带包围;它变成了一个垂直集成的堆栈,其中存储、互连、供电和逻辑共同缩放。
路线图将此演进放置在一个明确的时间表上。大约到2030年,AI加速器(Ascend SuperPoD产品线——2025年的Ascend 910C、2026年的Ascend 950以及后续的990)将依赖成熟技术的组合:芯粒、2.5D扇出、以及通过微凸点和标准间距混合键合实现的3D堆叠。大约在2030年左右,Ascend 990将在AI加速器类别中引入LogicFolding,从那时起,3D Folding成为直到2035年α的主要载体。沿着这条路径,预计到2035年硬件集成度将增长超过100倍,τ的减少分布在堆栈的每一层,而非集中于器件层面。
提要栏 B — AI系统规模下的τ
- UB远程访问延迟:~几十微秒 → ~100 纳秒(约500倍τ减少)
- Hi-ONE 每模块带宽:8 Tb/s(匹配每芯片UB带宽)
- Hi-ONE SerDes传输距离:~100 厘米 → ~5 厘米;面板间距离:< 1米 → 100米
- 扇出困境:计算 ∝ N²,受周长限制的带宽/IO/供电 ∝ N
- 3D Folding:将带宽、光I/O和供电从边缘重新定位到表面,恢复 N² 的对等关系
- 2026 → 2035 预计硬件集成度增长:>100倍
5. 逻辑与存储:从解耦到再融合
τ缩放的一个含义值得单独讨论,因为其后果既是技术性的,也是产业性的。
在8086时代,行业通过标准化存储总线有意地将处理器和存储解耦。这种解耦允许两个产业独立发展:处理器性能沿着摩尔曲线快速进步,而存储厂商则在其旁发展出一个庞大的独立市场。
AI时代正在逆转这种解耦。计算密度的持续扩张正将存储带宽、延迟、功耗和封装推向极限。HBM、混合键合和3D堆叠SRAM是一个基本事实的症状:对于现代AI工作负载,数据移动与计算本身同样关键,逻辑和存储正再次被推向紧密的物理集成。随着它们融合,供应链中的影响力平衡正转向存储和封装厂商。
技术方向是明确的,但经济的解决方案尚未确定。在AI硬件时代,持久的成功将属于那些能够在技术上融合逻辑与存储,并建立经济伙伴关系使两个产业都能长期分享融合利益的企业。这不仅仅是一个研究问题;这是行业在未来十年需要解决的一个结构性问题。通过使每一层分离的跨层成本变得可见,τ缩放确保这个问题无法再被推迟。
6. 开放挑战
将τ缩放描述为一个已完成的系统将具有误导性。几个实质性问题仍然开放,在此明确指出,既是为了突出正在进行的工作,也是为了邀请合作。
工具链和方法论。今天的EDA是为一个区域、时序和功率沿三个单独的轴进行优化的时代而开发的,系统τ作为残差出现。全尺寸LogicFolding要求工具链将多个堆叠芯片视为单个连续设计实体——以单元粒度而不是块粒度划分逻辑,在统一的成本函数下放置在整个卷上,并在垂直互连寄生、KOZ排除和晶圆间工艺变化以传统2D训练工具无法充分解决的方式交互的芯片间路径上执行时序闭合。已经开发了初步的内部工具,产生了有用的结果,方法细节将在未来几个月内公布。τ-原生工具链——开放的、多物理的和3D原生的——是下一个十年最重要的单一促成投资。
晶圆间工艺变异。LogicFolding键合来自可能不同批次——在某些情况下不同节点——的晶圆。晶圆间在阈值电压、驱动电流和互连RC上的变异远大于晶圆内变异,对时钟分配和保持时间余量影响最大。智能冗余、自适应补偿和τ感知的签收流程是应对措施的必要组成部分。
垂直互连开销。每个混合键合和每个TSV都会带来有限的电阻和电容惩罚,而且TSV的KOZ会挤占标准单元。因此,必须通过简单的不等式逐层证明LogicFolding的合理性:
$τ_{增益}(有效硅面积 + 线长缩减) > τ_{惩罚}(垂直互连RC)$
对于移动关键路径和存储,此阈值已被跨越;阈值是工作负载特定的,其边界将随着键合间距的缩小而移动。
能量。τ是时间定律,而不是焦耳定律。一个运行速度快10倍但功耗高10倍的超级节点违反了无缩放原则,但超过了电网容量。因此,τ扩展需要一个能量伴侣:消除堆栈开销的内存语义结构、将每比特皮焦耳减少几个数量级的近/共封装光学器件、背面功率传输、内存中/近内存计算,以及用τ余量换取功率的有纪律的实践(数据中心规模的DVFS——与智能手机电池寿命相同的机制)。
基准测试。行业当前的性能基准测试——Linpack、MLPerf、SPEC——是为每个工作负载使用单个标量就足够的时代设计的。一个τ缩放的行业需要τ概貌基准测试——向量形式,能揭示系统每一层的主导τ以及该层剩余的余量。占主导地位的τ层,根据定义,就是下一个投资目标。
7. 六年已过,十年展望
在2020年5月至2026年5月期间,华为半导体设计并实现了381款芯片的量产,服务于移动、AI、汽车、工业和基础设施市场。在整个产品组合中,τ缩放的理论得到了验证:
- 在器件和电路层面,晶体管密度已从155 MT/mm²提升,预计到2031年达到400+ MT/mm²。
- 在芯片层面,LogicFolding已在领先的移动SoC上证明,在固定器件节点上,关键路径频率、能效和密度可以继续进步。
- 在系统层面,统一总线和Hi-ONE已证明,数百微秒的通信τ可以压缩到数百纳秒,多机架AI集群可以像一台单一的一致性机器一样运行。
展望未来,预计CPU性能核心频率到2029年将达到4GHz及以上,麒麟SoC在典型使用下的效率预计在三到五年内翻倍以上,AI硬件集成度预计到2035年增长超过100倍。超越任何单个产品的更深层主张是方法论的。τ缩放是自Dennard缩放以来第一个为整个堆栈提供共享优化目标的缩放原则。它向工艺技术专家、电路设计师、架构师、系统工程师和软件团队发出信号:这些社区现在正在用相同的单位和术语优化同一个量,任何单一层次的改进必须传播到系统τ才算有效。它还向行业战略家和资本配置者表明,下一美元应该遵循τ,而不是节点——竞争绩效不再需要永远停留在光刻技术的前沿,封装、内存带宽和结构设计现在占据了前沿逻辑节点之前所拥有的战略权重。
对于一代被教导将“摩尔定律”等同于“进步”的工程师来说,这是一个艰难的转变。几何时代事实上已经结束;否认这一事实不是可行的策略。通过微型化加速的时代,正在让位于通过多层电子系统中的τ优化实现加速的时代——而在未来六到十年内采用τ作为主要目标的企业、研究团体和生态系统,将决定此后十年的计算形态。
未来十年的工作范围已经划定。许多开放问题依然存在,没有任何单一组织能够独自解决——工具链、标准、基准、器件物理和经济模型都需要来自任何单一公司之外的力量做出贡献。因此,本文既是一份来自实践领域的报告,也是一份邀请。技术演进之路需行业群策群力,欢迎到 云栈社区 分享见解。
前方的路线图要求很高,但方向是明确的。
作者:何庭波,华为的半导体业务负责人。她领导的团队在2020年至2026年间设计并实现了381款芯片的量产,涵盖移动、AI、汽车和基础设施市场,并且是本文所述τ缩放方法论以及LogicFolding、统一总线和Hi-ONE技术的源头。
致谢:本文基于华为半导体及其晶圆厂、设备、EDA和系统合作伙伴生态系统中成千上万名工程师六年的工作。作者感谢那些以耐心使这项工作成为可能的客户。
参考文献
- G. E. Moore, "Cramming more components onto integrated circuits," Electronics, vol. 38, no. 8, pp. 114-117, Apr. 1965 (重印于 Proc. IEEE, vol. 86, no. 1, Jan. 1998).
- R. H. Dennard et al., "Design of ion-implanted MOSFETs with very small physical dimensions," IEEE J. Solid-State Circuits, vol. 9, no. 5, pp. 256-268, 1974.
- J. L. Hennessy and D. A. Patterson, "A new golden age for computer architecture," Commun. ACM, vol. 62, no. 2, pp. 48-60, Feb. 2019.
- M. Horowitz, "Computing's energy problem (and what we can do about it)," ISSCC Dig. Tech. Papers, pp. 10-14, Feb. 2014.
- International Roadmap for Devices and Systems (IRDS) — Interconnect and More-than-Moore chapters, 2023/2024 update.
- P. Batude et al., "3D sequential integration: a key enabling technology for heterogeneous co-integration of new functions with CMOS," IEEE J. Electron Devices Soc., vol. 3, no. 3, pp. 205-216, 2015.