云栈社区»论坛 › 开发者广场「Dev Plaza」 › 3.5D封装技术解析：融合2.5D与3D优势，如何突破AI芯片性能瓶颈？ ...

发回帖发新帖

3777 积分	0 好友	499 主题

发消息

3.5D封装技术解析：融合2.5D与3D优势，如何突破AI芯片性能瓶颈？

发表于 2026-3-8 08:31:22 | 查看: 236| 回复: 0

近日，博通（Broadcom）正式宣布已交付业界首款基于其3.5D XDSiP（超大尺寸系统级封装）平台打造的2nm定制计算SoC，并交付给首位客户富士通。

这一突破性成果不仅标志着2nm工艺与先进封装的首次合体，更凭借创新的面对面（Face-to-Face，F2F）堆叠技术，将互连信号密度提升了7倍，同时将接口功耗降低了整整10倍。

博通3.5D F2F封装技术对比图

这一被博通称为业界首个的3.5D面对面计算芯片，标志着半导体封装技术的一次重要演进。随着AI训练与推理需求持续攀升，3.5D XDSiP平台允许计算、内存和网络I/O在紧凑形态下独立扩展，为大规模高效能计算提供了新的解决方案。

可见，从2.5D的平面平铺，到3D的垂直堆叠，再到如今博通定义的3.5D融合架构，封装技术早已不再是芯片的“外壳”，而是决定大模型计算效率的核心战场。

本文将深入解析3.5D封装的技术细节，探讨其如何突破现有封装瓶颈，当前行业进展以及尚未克服的挑战，并探讨其如何重塑AI与HPC芯片的未来。

先进封装，站上C位

在回答3.5D封装是什么之前，我们先简要回顾一下先进封装的演进历程。

长期以来，提升芯片性能主要依靠先进制程的突破。但随着摩尔定律失速，AI对算力的巨大需求，将芯片封装技术的重要性提升到了前所未有的高度。为了提升AI芯片的集成度和性能，以2.5D/3D封装和Chiplet等为代表的先进封装技术得到了广泛应用。

据研究机构调研显示，到2028年，2.5D及3D封装预计将成为仅次于晶圆级封装的第二大先进封装形式。这一技术不仅能够提高芯片的性能和集成度，还能有效降低功耗，为AI和高性能计算等领域提供强有力的支持。

半导体封装技术演进时间线

2.5D封装技术： 2008年，赛灵思率先将其大型FPGA划分为四个良率更高的小芯片，并将这些芯片连接到硅中介层（Silicon Interposer），2.5D封装由此诞生。

2.5D封装技术是一种介于传统2D封装和3D封装之间的过渡技术，通过在硅中介层上集成多个裸die，实现了芯片之间的高速互连和短距离通信。硅中介层通常采用硅通孔（TSV）技术实现垂直互连，具有高密度、高性能的互连特性，可以大大提高系统的整体性能。

2.5D封装结构图

3D封装技术： 3D封装技术则是通过将多个裸芯片（Bare Die）进行垂直堆叠，并借助硅通孔（TSV）和微凸块（Micro Bump）等先进互连技术实现层间通信，从而突破了传统平面集成的物理限制。这种架构极大地缩短了电子传输路径，在显著降低传输延迟与功耗的同时，实现了极高的互连带宽和封装密度，是突破“内存墙”瓶颈并实现异构集成算力的核心技术路径。

3D封装结构图

简单来讲，2.5D封装技术通过硅中介层实现了水平方向上的高密度互连，而3D封装技术则在垂直方向上实现了互连密度的指数级提升和功耗的显著降低，使得原本分散在二维平面上的芯片能够在垂直方向上紧密集成，为高性能计算和移动设备等领域提供了兼具高带宽与低功耗的系统级解决方案。

在算力博弈加剧的当下，2.5D/3D封装已成为了台积电、三星、英特尔等巨头从制程竞赛转向封装维度战争的核心支点，更是其构筑高性能计算护城河的关键筹码。

3.5D XDSiP——博通的“杀手锏”

如今，在AI芯片市场前沿，半导体厂商不仅在技术上进行竞争，也在规模上展开激烈角逐。很多公司都在竞相推出大型GPU和AI芯片，以应对像ChatGPT这类大型语言模型（LLM）的需求。这些模型在训练和运行过程中对计算能力和能耗的要求日益提高。

在此趋势下，芯片尺寸进一步限制了计算能力的提升，目前数据中心中最先进的AI芯片已无法再集成在一整块硅片上。为了解决这一限制，半导体行业的领先企业正在通过混合键合技术将逻辑芯片进行垂直堆叠，并将所有组件分布在高速中介层电路上，从而为芯片增加一个“维度”。

文章开头提到的博通3.5D XDSiP封装平台正是这一逻辑和技术趋势下的产物。

据了解，博通的3.5D XDSiP是一个成熟的模块化多维堆叠芯片平台，它结合了2.5D技术和采用面对面（Face-to-Face，F2F）技术的3D IC集成，其本质是旨在构建多芯片处理器的蓝图，推动新一代AI超级芯片的发展。

F2F技术框图

通常，这些芯片是以相同方向堆叠的，也被称为“面背堆叠”（F2B，Face-to-Back），然后再进行键合。Chiplet之间通过硅通孔（TSV）进行通信，在芯片之间传输电力、信号和数据。然而，博通通过在键合前将硅芯片“面对面”（F2F）堆叠，可以实现更直接的芯片间互连，从而缩短计算、内存和I/O芯片之间的距离，并省去它们之间的硅通孔（TSV）。这种结构能够实现高密度互连，显著提升信号传输效率，同时噪声更小、机械稳定性更强。

值得注意的是，博通的3.5D XDSiP设计还采用了混合铜键合（HCB）技术，这也是相较于2.5D和3D封装的核心差异化优势。这种技术可以直接连接每个硅芯片正面上的铜柱布线，而无需使用焊球。

2.5D封装中u-Bump连接示意图

这种混合键合的新结构使得每平方毫米可以实现数千甚至数万个连接点，能够实现芯片间更密集的电气接口。以下图为例，传统凸点间距是50微米，每平方毫米有大约400个连接；混合键合大约10微米的间距，可达到每平方毫米10000个甚至更多连接。

传统凸点与混合键合连接密度对比

随着Die to Die带宽需求的增长、I/O数量的增加以及由此产生的更精细的bump pitch(<25μm)，由于制造难度、电迁移(EM)限制和RLC寄生等问题，基于焊料的μ-bump技术变得难以扩展。因此，采用Cu-Cu混合键合的3D堆叠占据了关键地位，与传统的μ-bump互连相比，实现了低功耗、低延迟互连，并显著提高了芯片间的互连密度/速度，缩短了信号布线距离。

不难判断，在高密度的3D互连中，混合键合Hybrid Bonding已成为必然趋势，从索尼的CIS芯片，到 AMD 的3D V-Cache，再到三大存储原厂全面导入HBM，再到Apple M5把CPU与GPU用Cu-Cu重新连接，越来越清晰地看到：先进封装正在前端化，Hybrid Bonding正在架构化，凸点键合方式最终会逐渐消失。

u-Bump键合与混合键合技术对比示意图
2.5D与3D TSV结合混合键合示意图

博通指出，与传统在硅中介层平面上连接Chiplet所需的PHY相比，通过采用诸多创新技术，3.5D XDSiP平台使堆叠晶粒间的信号密度增加7倍，功耗降低至原来的十分之一，并减少延迟。

F2B和F2F工艺3D集成之间的差异对比

据悉，该技术目前已应用于富士通的Monaka处理器，该处理器拥有4个计算模块，每个模块拥有36个基于Armv9指令集的CPU核心，共144个CPU内核，均基于台积电2nm制程，并使用混合铜键合（HCB）以F2F方式堆叠在 SRAM上（本质上是巨大的缓存），SRAM是基于台积电的5nm工艺制造。

在利用XDSiP技术将各种异构芯片整合在一起之前，博通表示，整个流程的第一步是将芯片设计中的各项功能拆解，并重新组织为多个小芯片（Chiplet）。这种方案的主要优势在于：每个Chiplet都可以采用最适合其功能的制造工艺，从而让芯片在功耗、面积、性能和成本方面拥有更大的优化空间。

基于博通XDSiP技术的AI芯片构建模块示意图

大多数情况下，博通计划将系统核心的加速器核心或其他处理单元（上图中红色部分）划分为多个硅芯片。这些逻辑芯片可以包含通用CPU核心、高性能AI加速器（如GPU、张量处理单元TPU）或其他定制IP模块。对于这些Chiplet来说，采用最先进的制程技术是比较理想的选择，因为它们承担着最密集的计算任务。

其余的逻辑功能被转移到了另一块独立的芯片上（上图中黄色显示部分），该芯片包含了从输入/输出接口（包括基于PHY的芯片间互连、高速SerDes、高带宽内存接口）到作为处理器缓存的SRAM等所有组件。这些模块通常在采用最先进制程节点时收益不明显，因此更适合使用成熟且成本更低的工艺技术来制造。

博通ASIC产品部高级副总裁兼总经理Frank Ostojic表示：“博通的3.5D平台使芯片设计人员能够为每个组件选择最合适的制造工艺，同时缩小中介层和封装尺寸，这也降低了芯片设计中常见的翘曲风险。”

而博通的该技术方案之所以被称为3.5D封装，正如有业内人士形容——“2D封装加上Interposer后就变成了2.5D，那么3D封装加上Interposer就变成了3.5D，既合情合理，又符合了通用的命名法则。”

在封装过程中，3D堆叠的加速器芯片首先通过2.5D封装技术安装在Interposer上，然后再将其他Chiplet围绕其周围布置。在AI加速器下方的I/O芯片主要负责与封装内的HBM和其他Chiplet进行内部通信，而还可以添加多协议连接Chiplet，用于与服务器中或数据中心内其他加速器、处理器和内存芯片进行外部通信。这些I/O芯片位于上图中封装的南北两侧，可集成以太网、PCIe和计算互联链路（CXL）等IP模块。

借助3.5D XDSiP，博通能够助力AI客户交付最先进的XPU，其信号密度无与伦比，能效卓越，延迟极低，足以满足千兆瓦级AI集群的海量计算需求。博通的XDSiP平台支持计算、内存和网络I/O在紧凑的外形尺寸内独立扩展（以富士通Monaka处理器为例，该芯片集成了内存控制器、顶部带有CXL 3.0的PCIe 6.0通道以连接加速器和扩展器，以及人们期望从数据中心级CPU获得的其他接口），从而实现大规模的高效低功耗计算。

谁在拥抱3.5D？

除了博通推出的3.5D XDSiP平台之外，AMD正以激进的Chiplet策略探索前瞻性的3.5D集成技术。

2023年6月，AMD发布了业界瞩目的MI300系列AI加速器，成为首家将3.5D封装技术引入量产的计算巨头。这一技术突破并非一蹴而就，而是建立在AMD长期以来对Chiplet设计理念的深刻践行之上——通过将大型芯片拆解为多个小型芯粒，再借助高速互连技术进行重组，AMD早已为异构集成的质变埋下伏笔。

AMD Instinct MI300A处理器架构示意图

AMD的3.5D封装本质上是将台积电两大尖端工艺进行了融合创新：既采用了基于Cu-Cu混合键合的SoIC 3D堆叠技术，将GPU计算芯片或CPU芯片垂直堆叠在I/O芯片（IOD）之上，实现了超15倍的互连密度提升与极致能效；同时又依托CoWoS 2.5D硅中介层，将多个3D堆叠模块与HBM3内存进行高密度并排互连。

这种3D堆叠计算芯粒+2.5D集成内存与I/O的复合架构，正是AMD所定义的“3.5D封装”，这不仅让MI300X得以容纳1530亿个晶体管和高达192GB的HBM3内存，更在AI推理性能上实现了对英伟达H100的1.6倍超越。

从2021年率先在EPYC Milan-X CPU中引入3D V-Cache技术，到如今MI300系列通过SoIC与CoWoS的协同将异构集成推向新高度，AMD正凭借其在先进封装领域的系统级布局，重新定义AI加速器的密度与性能天花板。

实际上，博通的初始设计与AMD的MI300X非常相似，但这项技术是开放给任何人授权的。尽管存在相似之处，但博通在计算芯片与系统其余逻辑的接口方式上略有不同。

富士通是最早采用3.5D XDSiP技术的厂商之一，但博通表示，Monaka只是正在研发的大约六款设计之一。虽然Monaka是一个CPU平台，但博通公司赢得的XDSiP设计订单中，约有80%是搭载HBM显存的XPU。

据悉，博通该平台于2024年发布时，支持最多12个HBM堆叠的设计。据称目前超过12个堆叠的设计正在开发中，这意味着可能在不久的将来看到一些真正意义上的巨型芯片。

博通3.5D XDSiP平台多个定制XPU设计方案

据一位博通高管透露，预计到2027年，基于该堆叠式设计技术将至少售出100万颗芯片，包含了富士通芯片之外的几种其他设计。“现在，我们几乎所有的客户都在采用XDSiP技术”。

虽然博通并未直接与NVIDIA的GPU竞争，但博通为谷歌等科技巨头打造定制的加速芯片，也被称为XPU。这些公司正在建设庞大的服务器集群，投资可达数十亿美元，配备成千上万的GPU和其他AI加速器，用于在海量数据上训练最先进的模型。博通表示，最大的集群规模正在扩展到多达一百万个AI加速器。

据行业传闻，苹果也正在与博通合作开发其首款专为人工智能任务设计的服务器芯片。这款芯片的内部代号为Baltra，预计将于 2026年投入量产。Baltra芯片将采用台积电先进的 N3P 制造工艺，体现了苹果致力于在硬件开发中部署最新技术的承诺。

此外，三星与英特尔也在3.5D封装领域积极进行探索。

2024年，三星代工业务开发副总裁Taejoong Song曾在活动上展示了3.5D配置的路线图，将使用2nm芯片堆叠在4nm芯片上，2027年将使用1.4nm芯片堆叠在2nm芯片上。

三星异构集成技术路线图

英特尔代工厂的方法在很多方面都很相似。英特尔高级副总裁兼代工服务总经理Kevin O‘Buckley表示：“我们的3.5D技术是在带有硅桥的基板上实现的。这不是成本极高、产量低、多掩模版形状的硅，甚至不是RDL。我们以更具成本效益的方式使用薄硅片，通过硅桥实现芯片到芯片的连接，甚至是堆叠芯片到芯片的连接。因此，您可以获得相同的硅密度优势，以及该硅桥的相同Si信号完整性性能，而无需在整个硅桥下方放置巨大的单片中介层，这既能节省成本又提升了容量。

英特尔的3.5D封装模型示意图

而台积电作为先进封装领域的领导者，在3.5D封装领域扮演着技术基石与整合平台的核心角色。通过其3DFabric平台下两大先进技术的融合创新，为客户（如AMD和博通）的3.5D实现提供了底层支撑：一方面是持续演进的CoWoS系列技术，作为2.5D硅中介层的基础，已发展到支持超过5.5倍光罩尺寸的CoWoS-L技术，能够集成多达12个以上的HBM内存堆栈，为大规模AI加速器提供高密度互连平台；另一方面是采用混合铜键合的SoIC 3D堆叠技术，实现了芯片间无凸块的直接键合，将互连密度提升至新的数量级。

凭借这两大技术支柱的协同，台积电正加速构建其在3.5D异构集成时代的壁垒。在产能布局上，为应对AI浪潮下客户对先进封装的迫切需求，台积电正以前所未有的速度扩充CoWoS产能，目标在2025年底达到每月7万至7.5万片，并计划在2027年推出9倍光罩尺寸的超大型CoWoS封装以及系统级晶圆（SoW-X）技术，力求将单个封装的算力提升40倍。

同时，台积电也在积极主导生态建设，通过成立“3DIC先进封装制造联盟”，联合设备、材料与检测伙伴，推动从3D到3.5D封装技术的标准化与自动化进程，以应对异构集成时代愈发严苛的量产挑战。

总的来看，3.5D封装正逐渐成为一个重要的发展方向，整个行业都在朝着这一技术方面迈进。

3.5D封装的最终目标或许是实现芯片设计的“即插即用”方法，设计者可以从Chiplet库中选择合适芯片，并迅速将连接到经过验证的架构中。虽然这一愿景可能需要数年时间才能完全实现，但可能在未来几年内看到商用Chiplet出现在先进设计中，从HBM与定制处理器堆叠开始。

3.5D封装规模商用，还有几道坎？

虽然3.5D封装提供了众多优势，且当前的技术已经能够实现3.5D封装，但需要注意的是，在大规模生产和应用中，3.5D封装仍面临诸多挑战。

例如，3.5D封装技术仍需要进一步降低成本和提高良率，工艺的复杂性和制造成本是制约其大规模应用的主要因素。其次，3.5D封装的可靠性和长期稳定性也需要进一步验证，特别是在高温和高压环境下的应用场景中，散热可能是比较难解决的问题，工作负载可能会有很大差异，从而产生动态热梯度并将热量困在意想不到的地方，从而缩短芯片的使用寿命和可靠性。

热管理： 尽管相比3D封装有所改善，但在3.5D组件中管理热量仍然是一个重大挑战。
混合铜键合： 随着芯片更高密度需求提升，业界正在向更精细的混合键合技术发展，混合铜键合是一种“无凸点（bumpless）”互连技术，推动互联技术从Microbump走向<10µm Pitch的Cu-Cu时代，这一技术变革使得芯片能实现更高互连密度、更低功耗、更低寄生、更优热性能、更小封装尺寸等，正在成为HPC、AI、HBM、Chiplet与CPO的核心互连基础，但其可靠性与系统级整合仍是下一阶段关键挑战。
时序收敛： 随着在3.5D配置中添加更多元素，确保信号在正确的时间到达正确的位置变得越来越复杂。这需要复杂的热感知和IR感知时序分析。
数据管理： 设计和分析这些复杂系统所涉及的数据量正在爆炸性增长，有效处理这些数据并减少模拟和分析运行时间是一个主要关注领域。
组装复杂性： 物理组装这些器件涉及管理具有不同厚度和热膨胀系数的各种裸片的热、电和机械连接，这需要进行密集的热机械认证工作。

此外，该技术不仅在上述方面提出了新的挑战，还要求供应商处理比标准封装数据库大得多的数据集。

为了应对这些挑战，行业正在探索桥接器、S-Connect、SWIFT以及S-SWIFT等新技术，尽管这要求软件供应商积极寻找解决方案，并且需要大量的交互式路由工作。

不同先进封装技术对比表格

Amkor Technology的封装路线图展示了模块和Chiplet的桥接和混合键合连接的未来方向。3.5D技术面临的主要挑战是确保可靠性和可定制性，这两者的需求在某种程度上是矛盾的，并且超出了任何单一公司的控制范围。

实现这一愿景需要在几个关键领域取得进展：

EDA工具： EDA工具需要发展以处理3.5D设计的复杂性。这包括同时考虑热、信号完整性和功率完整性问题，以及改善IC设计师和封装专家之间的协作；
工艺/组装设计套件： 3.5D工艺和组装的标准化设计套件非常重要，这些可能会在代工厂和OSAT提供商之间分配；
标准化： 为可以预先构建和预先测试的内容设置现实的参数将是提高组装速度和便利性的关键。像UCIe这样的行业标准就是朝这个方向迈出的步伐。
工艺一致性： 确保3.5D组装各个步骤的工艺一致性非常重要。这需要为每个工艺步骤定义可接受的输出，并开发实时优化配方的方法，以保持结果在所需范围内。

3.5D封装代表了半导体集成的重要进步，在3D-IC的性能优势和当前2.5D解决方案的实用性之间提供了平衡。随着业界趋向于这种方法，可以期待在设计工具、制造工艺和标准化努力方面的快速发展。

综合来看，实现3.5D封装及其他更高集成的封装技术将需要整个半导体生态系统的持续合作。从芯片厂商、EDA供应商到代工厂、OSAT和系统集成商，每个参与者在将这项技术推向市场方面都发挥着重要作用。随着技术向前发展，3.5D封装可能成为连接当前技术与未来完全3D-IC的桥梁，开启半导体创新的新时代。

写在最后

后摩尔时代，在算力需求持续爆发的背景下，3.5D封装的横空出世，成为半导体行业从平面集成向多维异构集成跨越的关键桥梁。它融合2.5D硅中介层的平面互连优势与3D堆叠的垂直集成能力，以面对面堆叠、混合铜键合等核心技术，突破了传统封装在密度、功耗、延迟上的瓶颈，更通过Chiplet的模块化设计，实现了不同工艺芯粒的最优组合，为AI、HPC等领域的超大算力需求提供了全新解决方案。

从AMD MI300系列的量产落地，到博通3.5D XDSiP平台的商用交付，再到台积电、三星、英特尔等巨头的技术布局与产能加码，3.5D封装正在从技术概念走向产业主流，成为全球半导体竞争的新核心。但同时，这项技术仍面临热管理、良率成本、工艺标准化、EDA工具适配等多重挑战，其大规模普及离不开芯片设计、制造、封装、设备等全生态的协同创新。

作为2.5D到全3D封装的重要过渡，3.5D封装不仅重塑了高端芯片的集成范式，更开启了半导体制程+封装双轮驱动的新时代。

未来，随着技术的持续迭代与生态不断完善，3.5D封装将持续释放异构集成的潜力，推动算力硬件向更高密度、更高能效、更灵活定制的方向发展，成为支撑AI、高性能计算等前沿领域突破的核心基石。想了解更多关于计算机架构和前沿互联技术的前沿讨论，欢迎访问云栈社区与广大开发者交流学习。

上一篇：干法刻蚀技术详解：从ICP、RIE设备原理到InP/SiO₂刻蚀工艺参数
下一篇：2nm制程产能争夺战：台积电领先，英特尔、三星、Rapidus激烈竞逐

3．5D封装, Chiplet, 混合键合, AI芯片, 高性能计算