云栈社区»论坛 › 技术文档「 Note & Doc 」 › 光互连技术深度解析：从CPO、NPO到光调制器的演进与AI数据中心应 ...

发回帖发新帖

5291 积分	0 好友	715 主题

发消息

光互连技术深度解析：从CPO、NPO到光调制器的演进与AI数据中心应用

发表于 2026-2-27 05:44:49 | 查看: 174| 回复: 0

你相信光吗？在AI算力需求爆炸式增长的今天，数据中心内部的高速互连正面临带宽与功耗的严峻挑战。传统的电互连（铜线）似乎快走到物理极限，而光互连技术被普遍认为是下一代超大规模计算的必然选择。那么，我们为什么需要从“铜”转向“光”？

带宽与密度约束：芯片周围能布置的金属引脚数量受限于物理尺寸，高频铜线靠得太近会产生严重的电磁干扰。即使封装基板做得再复杂，也难以满足未来从10TB/s到100TB/s的外部通信带宽需求。
距离与功耗矛盾：为提高带宽需要提高数据传输速率，但速率越高，高频信号衰减越剧烈。为了让电信号传得更远，需要更多Retimer和DSP进行信号放大和补偿，这又带来了新的功耗墙。

近期，在ISSCC 2026（国际固态电路会议）上，三篇重要论文揭示了光互连的最新进展：

Nvidia 公布了基于MRM（微环调制器）的DWDM（密集波分复用）CPO技术，单波传输速率32Gb/s，实现了单根光纤256Gb/s的传输速率。
Broadcom (BRCM) 公布了基于MZM（马赫-曾德尔调制器）的6.4Tbps CPO，用于其交换机芯片，主要针对Scale-Out网络。
Marvell 则针对跨园区（2~40km）场景，提出了基于Coherent-Lite（精简相干）的硅光收发器。

这三家公司采用了不同的调制方案，针对不同的应用场景。技术路线的选择充满取舍，不仅包括光与铜、NPO与CPO的权衡，甚至对“Scale-UP”和“Scale-Out”场景本身的定义也存在模糊地带。

本文将深入探讨光互连的技术现状、核心挑战与未来演进。

1. 光互连现状及挑战

1.1 光互连现状

当前主流的光互连方案采用可插拔光模块。如下图所示，ASIC生成高速电信号（如112G/224G PAM4），通过PCB板的铜走线连接到可插入光模块的笼子（Cage）。有时因距离过长，中间还需要Retimer来补偿信道损耗，消除信号抖动，提升信号完整性。

基于光模块的光互连结构示意图

图1：基于光模块的光互连结构

展开看光模块的内部结构，它主要包含一个DSP（数字信号处理器）和一个OSA（光学次组装模块）。DSP负责复杂的信号处理，如均衡、时钟恢复等，这部分功耗通常占光模块总功耗的50%以上。OSA则负责光电/电光转换。

QSFP112光模块内部结构框图

图2：光模块的内部结构

OSA通常分为发送端（TOSA）和接收端（ROSA）。

TOSA与ROSA功能划分

图3：TOSA与ROSA的功能划分

发送端 (TOSA)：
来自DSP的高速电信号首先由驱动芯片（Driver）放大，然后送入光子集成电路（PIC）。PIC接收来自激光器的连续光源，在Driver输入的电信号控制下，通过光学调制器将电信号转换为高速闪烁的光信号。

接收端 (ROSA)：
光纤接收到的光信号由光电探测器（PD）转换为微弱的电信号，再经过跨阻放大器（TIA）放大后，输出电信号给DSP。

在实际芯片设计中，通常将TIA、Driver、DSP等电路部分集成到电集成电路（EIC）中，而将调制器、PD等光学器件集成到光集成电路（PIC）中。

TOSA/ROSA与EIC/PIC划分对比

图4：OSA功能划分和EIC/PIC划分对比

1.2 光互连的挑战

从图1可以看到，从ASIC到光模块的路径长、连接点多。随着信号速率（如迈向448G SerDes）的提升，路径损耗急剧增加，需要更强的DSP进行补偿，导致功耗飙升。因此，产业界开始探索各种优化方案。

第一步：去掉功耗最大的DSP -> LPO
随着ASIC工艺进入5nm/3nm，其边缘的SerDes本身已集成强大的DSP。因此，诞生了线性驱动可插拔光学器件（LPO），其光模块内部的EIC只保留Driver和TIA，去掉独立的DSP。这可以降低约40%~50%的功耗和15%~20%的成本，并减少延迟。但LPO严重依赖ASIC SerDes的性能，存在互操作性和调试难题。

LPO架构示意图
图5：LPO架构

第二步：将光器件靠近芯片 -> NPO
为了进一步避免PCB长距离走线和接插件的损耗，出现了近封装光学（NPO），将光器件放置在离ASIC更近的封装基板上。

NPO架构示意图
图6：NPO架构

但激光器在高温下易老化。解决方案是将激光器作为可插拔光源（PLS）放在前面板冷区，这能大幅提升平均无故障时间（MTBF）。故障恢复时，也只需更换模块，维修简便。

NPO外置光源架构
图7：NPO采用外置可插拔激光光源

终极一步：与芯片共封装 -> CPO
当SerDes速率迈向448Gbps时，PCB走线和NPO插座的损耗变得难以承受。同时，为了追求更高的Beachfront（芯片边缘）带宽密度，共封装光学（CPO）应运而生。它将光引擎（OE）通过先进封装技术（如2.5D/3D集成）与ASIC封装在同一基板上，距离仅几毫米，并可用超短距（USR）接口替代传统SerDes。

Broadcom的CPO技术架构
图8：Broadcom的CPO平台

CPO的优势在于彻底摒弃了PCB走线，极大减少了信号损耗和寄生效应。

CPO与NPO信号路径及眼图对比
图9：CPO（左）与NPO（右）的信号路径及眼图对比，CPO眼图张开度更优

图10：CPO核心封装体结构

然而，CPO并非完美：

热管理：光引擎紧靠发热的ASIC，高温影响其寿命和性能。
可靠性与良率：单个光引擎故障可能导致整个昂贵芯片（如GPU）报废，对生产良率和运维都是巨大挑战。
可维护性：无法像可插拔模块那样单独更换。

CPO故障的级联放大效应
图11：CPO的缺陷：局部故障导致整个封装体失效

那么，为什么巨头们仍致力于CPO？关键在于它带来的带宽密度革命性提升，这是未来算力集群扩展的刚需。业界正在尝试解决上述挑战：

采用更高效的液冷方案。
选择热稳定性更好的调制器（如MZM）或为MRM设计精密温控。
设计可更换的光纤附着单元（FAU）。
对于稍短距离，探索基于铜的共封装（CPC）作为过渡。

在深入最新解决方案前，我们需要先理解核心器件——光调制器。

1.3 光调制器

光调制器是将电信号加载到光载波上的关键器件，主要有三种：MZM、MRM和EAM。

三种光调制器物理机制对比
图12：EAM、MRM、MZM三种光调制器物理机制

1.3.1 MZM（马赫-曾德尔调制器）
原理：将输入光等分到上下两臂波导，通过施加电压改变波导折射率，从而改变光速，产生相位差。两路光在出口处汇合发生干涉，相位相同时相长干涉（输出亮，代表1），相位相反时相消干涉（输出暗，代表0）。

图13：MZM物理拓扑与工作原理

MZM线性度好，适合NRZ、PAM4等高阶调制格式。但缺点是半波电压（Vπ）与调制器长度（L）成反比，为了在低电压下工作，需要较长的调制区（毫米级），导致面积大，Beachfront密度受限，且通常不支持DWDM，需外接复用器。

1.3.2 MRM（微环调制器）
原理：利用微环谐振器的谐振效应。当连续激光的波长与微环谐振波长一致时，光被耦合进环内耗散，直波导输出为“0”；通过电压改变微环折射率，使谐振波长偏移，激光波长失谐，光直接通过直波导，输出为“1”。

图14：微环调制器结构示意图

MRM尺寸极小（微米级），功耗低，且天然支持DWDM（通过多个半径略有差异的微环即可）。但其致命缺点是对温度极度敏感，温度变化0.5°C就可能导致失效，因此需要集成微型加热器和复杂的闭环温控电路。

1.3.3 EAM（电吸收调制器）
原理：通过在半导体材料上施加反向偏压，改变其能带结构，从而控制对特定波长光的吸收。不加压时光通过（1），加压时光被吸收（0）。

图15：电吸收调制器结构示意图

EAM尺寸较小，功耗低，热稳定性好于MRM。但存在啁啾效应，色散容限较低，且在纯硅平台上集成难度大。

1.3.4 三种光调制器对比

技术路线	核心调制机制	面积占用	信号特征与格式	能效与功耗表现	典型应用场景
MZM	相位干涉	大（毫米级）	线性度高，适合PAM4等	中等，需要较高射频驱动电压	主流CPO，500m~2km互连
MRM	谐振腔耦合与解耦	极小（微米级）	对波长敏感，带宽窄	RF功耗极低，但需额外加热调谐功耗	高密度CPO，下一代AI集群DWDM互连
EAM	电致吸收效应	较小	存在啁啾，色散容限低	较低，但在纯硅基底集成难	EML可插拔模块，机架内短距互连

三种调制器尺寸对比
图16：MZM、EAM、MRM尺寸对比（毫米级 vs. 微米级）

三种调制器功耗对比
图17：MZM、EAM、MRM功耗对比

在ISSCC 2026上，Broadcom选择了MZM，Nvidia选择了MRM，而Celestial AI等公司则看好EAM。不同的选择反映了对性能、密度、功耗和热管理的不同权衡。

Celestial AI对EAM优势的分析
图18：Celestial AI阐述EAM在热稳定性、尺寸和集成度上的优势

学术界对三种调制器的综合对比
图19：学术界对MZM、EAM、MRM的详细对比

驱动CPO发展的根本动力是带宽需求。以NVIDIA B200为例，其两个Die间通过NVLink-C2C的带宽已达10TB/s，而芯片边缘（Beachfront）通过电互连或可插拔光模块能达到的带宽密度远低于此。CPO有望将Beachfront带宽密度提升一个数量级。

NVIDIA B200芯片互连架构，C2C带宽达10TB/s
图20：NVIDIA B200芯片互连架构

光电子集成技术演进路线图
图21：从NPO、2D/3D CPO到3D光子集成的带宽与能效演进

图22：3D CPO与3D光子中介层集成示意图

CPO的商业化道路虽长，但方向明确。接下来，我们剖析ISSCC 2026上的三项关键工作。

2. ISSCC 2026 Session解析

2.1 Nvidia：256Gbps高能效3D堆叠DWDM硅光互连芯片

Nvidia的论文核心在于利用MRM天然支持DWDM的特性，避开复杂的高速PAM4 SerDes，转而采用8个低速32Gb/s NRZ通道，结合1个传输时钟的通道，在单根光纤上实现256Gbps聚合带宽。EIC采用7nm工艺，PIC采用65nm硅光工艺，通过3D堆叠混合键合实现。

图23：3D堆叠的GPU/交换机与光引擎集成示意图

该设计实现了约 2 pJ/bit 的出色能效和 1.33 Tb/s/mm² 的高面积效率，且在误码率（BER） <1e-11 时眼图张开度达0.46 UI。

核心创新点：

时钟方案：采用带通滤波的半速率前向时钟（FWDCLK）。在接收端，对FWDCLK进行1-2GHz带宽的带通滤波，既能跟踪低频相关抖动（如电源噪声），又能有效滤除TIA引入的高频非相关抖动，解决了DWDM链路的时钟抖动难题。

图24：嵌入式时钟(EC)、前向时钟(FC)及带滤波FC的抖动处理机制对比
注入锁定振荡器（ILO）：在RX时钟分配网络中嵌入ILO，形成有效的带通滤波器，几乎不增加额外功耗。

图25：RX端TIA接收FWDCLK的ILO设计
热调谐（TT）环路：为每个MRM集成微型加热器和混合信号控制环路，实时锁定谐振波长，克服了MRM的温度敏感性。
工艺集成：采用TSMC的COUPE等先进封装技术，实现EIC与PIC的高密度、低寄生互连。

图26：COUPE嵌入式微透镜与光纤附着单元（FAU）结构

图27：芯片显微照片、测试频谱及眼图结果

这项研究表明，通过“多波长并行+纯模拟前端+精巧时钟架构”的路径，可以在避免复杂DSP的前提下，实现高能效、高密度的光互连，为国内相关技术发展提供了有价值的参考。

2.2 Broadcom：6.4Tbps CPO

Broadcom的设计针对Scale-Out网络交换机对高端口密度（Radix）的需求。其单片CPO引擎提供64个112G PAM4通道（6.4Tbps双向带宽），多个这样的引擎可以围绕一颗交换芯片（如Tomahawk 6）布置，实现极高的总端口数。

图28：Broadcom 6.4Tbps CPO引擎

技术特点：

发送端：采用Retimer架构，接收主机数据后，利用DSP处理和分段式MZM驱动器，通过Thermometer编码直接在光域生成PAM4信号。
接收端：创新性地采用“直接驱动”TIA，光电转换放大后，直接通过短距基板通道驱动主机ASIC，省去了接收端DSP和CDR，大幅降低功耗和延迟。
系统集成：芯片集成了大量监控PD和加热器DAC，具备完善的光功率监控和热管理闭环系统。

图29：6.4Tbps CPO芯片系统架构图

2.3 Marvell：双通道800Gb/s 300ns延迟Coherent-Lite硅光收发器

Marvell瞄准的是园区间（2-40km）的数据中心互连（DCI）场景。传统强度调制直接检测（IMDD）技术在此距离和速率下遇到瓶颈，而传统相干技术功耗和延迟过高。Coherent-Lite是一种折中方案。

不同光连接技术对比
图30：直接检测、Coherent-Lite与全相干技术的应用场景与特性对比

核心思路：

使用O波段：传统长距相干使用C波段，色散严重，需要复杂的数字色散补偿（DDC），导致高延迟和功耗。O波段色散近乎为零，虽然光衰减略大，但在40km内可以依靠提高光功率来克服，从而可以砍掉庞大的DDC矩阵。
轻量级DSP：采用DP-16QAM调制，但使用简化的DSP算法，在保证性能的前提下，将延迟降低至300ns级别，能效提升约2倍。

Coherent-Lite破局园区DCI挑战
图31：Coherent-Lite通过切换到O波段和轻量级DSP解决园区互连瓶颈

3. 分场景谈谈光互连

3.1 Scale-Across（跨园区互连）

对于2-40km的跨园区场景，Marvell的Coherent-Lite技术在降低延迟方面有显著优势，对业务端到端延迟有积极影响。更远距离（>40km）则因光衰减要求极高的激光器功率和信噪比，仍将以可插拔相干光模块为主。CPO主要针对数据中心内部（<500m）的极高带宽密度场景。

3.2 Scale-Out（横向扩展网络）

Nvidia和Broadcom均已发布CPO交换机产品。国内也有厂商尝试LPO或NPO。在这个场景下如何选择？

3.2.1 TCO和功耗分析
根据SemiAnalysis等机构分析，CPO在交换机层面确实能节省可观的功耗和成本（光模块DSP功耗占比大）。但将其放到整个AI集群的TCO中看，节省比例相对有限（约4%能耗，7%成本）。同时，CPO引入了维护性、可靠性和供应链弹性的新担忧。因此，短期内超大规模数据中心对Scale-Out CPO的采纳可能会比较谨慎。

3.2.2 可靠性分析
可靠性是CPO的核心争议点。据Broadcom与Meta的测试数据，CPO模块的MTBF约为100万小时，而铜缆（DAC）的MTBF可达5000万小时。
对于一个搭载16个CPO模块（每个64通道）的交换机，整机MTBF会急剧下降。假设平均修复时间（MTTR）不同：

可插拔模块：MTTR约10分钟，可用性极高。
NPO：MTTR约20分钟（开箱更换），可用性仍很高。
CPO：MTTR可能需要数周（整机返修），可用性会大幅降低。

缓解措施包括：

采用外部激光源（ELS），使激光器可独立更换。
在CPO内部设计冗余通道，通过软件切换绕过故障通道。
在网络架构上，将CPO用于骨干（Spine/Leaf），而TOR到服务器仍用高可靠性的DAC，利用网络多路径冗余容忍单链路故障。

3.2.3 结论
个人认为，在Scale-Out网络中，采用NPO进行尝试是可行路径。CPO在此场景的大规模部署，可能需等待Nvidia等公司在特定生态内先行验证。短期内，CSP（云服务提供商）可能不会大规模采用。CPO的终极价值在448G SerDes时代，但当下的Scale-Out网络更关注用更多112G端口提升Radix，而非单一端口速率。

3.3 Scale-UP（纵向扩展，如GPU集群）

对于GPU间互连，CPO能带来近10倍的Beachfront带宽密度提升，诱惑巨大。但可靠性问题同样被放大。以一个NVL72机柜为例，使用CPO与使用铜互连的系统MTBF差异巨大。若进一步扩大Scale-UP规模至512卡，CPO系统的理论MTBF可能仅数百小时，可用性无法接受。这正是Nvidia在其下一代Rubin Ultra架构中仍坚持使用铜互连（NVLink）的原因。

铜互连也有极限，224G SerDes的铜缆有效距离已缩至约2米。产业界正在探索共封装铜（CPC）作为448G时代的过渡方案，它通过飞越电缆（Flyover Cable）直接连接基板，避免PCB损耗。

图32：共封装铜互连（CPC）示例

图33：高密度差分对连接器支持CPC

长远看，光互连的带宽密度优势不可替代。Nvidia在ISSCC 2026上展示的基于32G NRZ的DWDM CPO方案提供了一条新思路：避开先进工艺下的高速PAM4 SerDes，利用成熟工艺的并行多波长实现高带宽。随着MRM温控等关键技术成熟，CPO可能在2027-2028年取得实质性突破。

光子织物技术展现无Beachfront限制的带宽密度
图34：光子织物（Photonic Fabric）技术展现无Beachfront限制的带宽密度

此外，光互连也可能重塑内存架构，例如通过CPO连接的外部光内存池，或如Celestial AI方案所示，用光互连扩展GPU内存容量。

图35：基于光子织物的内存模块与设备

结论

技术路径：CPO是突破带宽密度瓶颈的终极方向，但NPO是当前更稳健的过渡选择。MRM（DWDM）、MZM（高线性度）、EAM（热稳定）三种调制器路线将并存，服务于不同场景。
落地节奏：CPO可能在2027-2028年随着关键可靠性问题的解决而逐步成熟。Nvidia的DWDM CPO方案（7nm EIC + 65nm PIC）为国内避开尖端SerDes工艺限制提供了可参考的路径。
场景选择：在Scale-UP场景，未解决可靠性前，盲目扩大光互连集群规模并不可行。考虑到当前AI推理业务对弹性的需求，未来两年内，工业界在Scale-UP上可能仍将主要依靠铜互连，直至CPO能提供压倒性的带宽密度优势（如4倍于铜，即使有冗余也远超当前）。

光互连的浪潮已至，但航道上仍有暗礁。技术的演进不仅是器件的革新，更是对整个计算机系统架构的重新思考。关于网络协议如何适应这种超低延迟、超高带宽的物理层变化，将是另一个值得深入探讨的话题。对于工程师和架构师而言，理解这些底层技术的权衡与趋势，是在云栈社区等平台进行高质量技术交流与决策的基础。

参考资料
[1] Co-Packaged Optics (CPO) Book – Scaling with Light for the Next Wave of Interconnect: https://newsletter.semianalysis.com/p/co-packaged-optics-cpo-book-scaling

上一篇：数据中心互联DCI网络演进：从混乱园区到多Region骨干网架构设计
下一篇：Anthropic AI改写COBOL代码冲击IBM，软件外包与咨询行业变革在即

光互连, CPO, 硅光子, 人工智能数据中心, 高速网络