找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2729

积分

0

好友

353

主题
发表于 4 天前 | 查看: 12| 回复: 0

在网络设备中,看似不起眼的光模块,其成本往往能占到整体方案相当高的比重。很多时候,购买一台交换机的花费,可能还不及为其配套的光模块多。今天,我们就深入解析一下大型数据中心网络中这个既基础又关键的部分:连接器(Connector)。

光模块连接器概念图

虽然“光模块”这个称呼更为通俗,但目前仍是光电并存的时代,尤其是铜缆(如DAC)仍有其应用场景,我们在此统称为“连接器”。

连接器基础知识

在大厂不同距离和场景下,如何选择合适的传输介质和连接器?可以参考下表:

不同物理媒介传输距离与应用场景对比表

结合上表,我们以具体的“400G QSFP-DD DR4”模块为例,拆解其命名含义。

  • 400G:模块速率,表示通信带宽为400Gbps,是当前数据中心网络的典型速率之一。
  • QSFP-DD:模块物理规格。
    • SFP 是起点,意为小型可热插拔模块。
    • Q 表示 Quad(四),即4路收发,是SFP的并行版本。类似地,DSFP 为双路,OSFP 为八路。
    • DD 表示双密度(Double Density),在兼容QSFP外形的基础上实现8路收发。
  • DR4:模块的光学侧属性。
    • DR 表示传输距离(约500米)和光纤类型(单模)。
    • SR/VR 表示短距(约100米/50米)多模。
    • FR 表示2公里单模。
    • 4 表示4个并行光通道。同理,SR4、SR8、FR4的含义便不难理解。

还有一些变形,例如“800G OSFP 2×DR4”,表示模块上有两组DR4插槽,与单组DR8不同,它通常作为两个独立的400G通道使用。

更科学的命名如“400G QSFP-DD56 DR4”和“400G QSFP112 DR4”,其中“56”和“112”指单路电信号速率(单位Gb/s)。QSFP-DD(8路)配合56G信号实现8×50G=400G;QSFP(4路)配合112G信号实现4×100G=400G。两者光侧同为DR4,因此可以互联。同理,“400G QSFP112 SR8”与“400G QSFP-DD56 SR8”也能互联。

互联的关键在于信号速率的匹配,这依靠模块内部的DSP(数字信号处理器)进行“变速”处理。因此,DSP是可插拔光模块中技术含量最高的核心器件。有些方案会将光电转换组件(TOSA/ROSA)部分集成,或用硅光技术一体化封装,这主要影响成本和供应链。

网卡侧存在一些特例。例如,CX6 100G QSFP网卡可工作于4收4发(QSFP28)或2收2发(QSFP56)模式,因此常见网卡使用100G QSFP56 SR2,而交换机使用100G DSFP56 SR2的搭配。

下图展示了一个常见的400G QSFP-DD模块的内部结构爆炸图。

400G QSFP-DD光模块内部结构爆炸图

光模块的核心价值在于其内部器件,主要包括三大件:

  1. DSP (oDSP):负责电信号的整形、变速和前向纠错。
  2. TOSA:光发射组件,将DSP处理后的电信号转换为光信号并注入光纤。
  3. ROSA:光接收组件,接收光纤中的光信号并将其转换为电信号送给DSP。

熟练掌握这些基础结构及命名规则,是理解与设计网络/系统互联的基础。

工程师与线缆漫画

目前,112G PAM4电信号已成熟商用(也是当前国产芯片的上限),224G PAM4即将规模部署,NVIDIA更是在NVLink 6中发布了448G。在数据通信领域,信号速率是技术实力的直接体现。

象征速率皇冠的卡通图

因此,纯技术角度看,400G QSFP112模块和800G OSFP112模块并无高下之分,特别是“800G OSFP 2×DR4”这种设计,更多是工程与成本权衡,而非技术跃迁。

光模块信号处理方式

不同类型的光模块,其内部信号处理方式也不同:

DR4模块信号处理示意图(电信号合分,光信号物理并行)
图:DR4模块在电信号侧进行合分,光信号侧采用物理并行

FR4模块信号处理示意图(电信号与光信号均进行合分)
图:FR4模块在电信号和光信号上均进行合分(波分复用)

SR8模块信号处理示意图(信号直通)
图:SR8模块在电信号和光信号上均不做合分,信号直通

LPO光模块与传统方案对比图
图:LPO方案取消了DSP/CDR,由外部电信号直接驱动光组件

  • DR4(图2):电信号经DSP“变速”(如8x50G转为4x100G)后,驱动TOSA产生4路独立光信号,通过4芯光纤物理并行传输。反向亦然。这种物理并行特性支持端口拆分(如400G拆为4x100G)。
  • FR4(图3):电信号变速后,通过TOSA转换为4路不同波长的光信号,在模块内部合波后注入单芯光纤。这节省了长距离纤芯资源,但无法进行物理端口拆分。
  • SR8(图4):电信号和光信号均不做合分,通常无需昂贵DSP,可用成本更优的CDR(时钟数据恢复)芯片,其VCSEL激光器也更具成本优势。由于其物理并行特性,同样支持端口拆分。
  • LPO(图5):进一步简化,直接取消了DSP和CDR,类似无源铜缆(DAC),由交换机/网卡侧的电信号直接驱动光组件。优势是模块成本显著降低,但对网络/系统中主机侧电信号完整性要求极高,目前普及度有限。

端口拆分应用示意(DR4原理类似):
400G SR8模块拆分为2x200G连接示意图
图:400G QSFP-DD SR8模块拆分为2个200G端口的应用示例

硅光技术为何流行?

无论互联网厂商还是设备商,都在推动硅光(SiPho/SiPh)技术。原因何在?

硅光集成方案示意图
图:硅光子技术集成了传统分立的光电、电光转换器件

硅光与分立器件方案对比
图:硅光方案在集成度和潜在成本上的优势

硅光利用硅的半导体工艺和光电特性,将多个分立器件(如PD-光电探测器、TIA-跨阻放大器、Driver-激光驱动器)集成到单一的硅芯片上。这极大简化了光模块的封装工艺,降低了制造成本。对于追求极致成本的大型数据中心而言,这类技术具有天然吸引力。

从可插拔到CPO封装

谈到硅光,就不得不提更激进的封装形式:CPO(共封装光学)。

从可插拔到CPO的光器件集成演进图
图:随着带宽需求提升,光收发器件与信号源芯片的集成越来越紧密

LPO的实践表明,长距离板级电信号传输的完整性面临挑战。很自然的思路是:将光电/电光转换部件(即光引擎OE)移至信号源芯片(如交换机ASIC)旁。硅光技术使OE得以微型化,从而能与计算芯片通过先进封装(如2.5D、3D)集成在一起,这就是CPO。

在CPO架构中,OE负责信号调制,通常需要外置可插拔的激光器模块为其提供光源。OE调制后的光信号通过极短的光路连接到设备面板。这种架构大幅缩短了电通道,降低了功耗,并省去了DSP。

然而,CPO并非万能。它通常针对特定场景(如全部使用DR模式、无需速率转换的密集Scale-Out互联)进行优化。在需要灵活连接、多速率兼容的通用数据中心网络(DCN)中,其优势不一定明显。NVIDIA发布的Spectrum-6交换机芯片采用CPO形态,正是瞄准了AI集群所需的Scale-Out网络场景。

CPO的优势侧重于性能和功耗,成本优势是理论上的。因为它将光引擎与特定交换芯片深度绑定,可能加剧供应商锁定。

大型数据中心的连接器选型逻辑

选型核心原则:在满足性能与功能的前提下,追求最低总拥有成本(TCO)。

1. 端口类型选择

基本原则:交换机端口类型应与服务器主流网卡的电信号规格对齐

  • 示例1:服务器采用100G QSFP56网卡(2路50G电信号),交换机也应选用2路50G的100G端口。这样可以使用低成本DAC直连,且避免端口拆分,有利于保障可靠性。
  • 示例2:当CX7(200G/400G)成为主流,接入交换机采用400G QSFP112端口更为合适,既能直连400G服务器,也可拆分为200G使用。
    为什么交换机不直接做大量200G端口?这涉及交换机芯片容量、机箱面板密度、信号完整性以及散热等综合工程权衡。例如,51.2T芯片做成128x400G(4U高)是更成熟均衡的方案。

2. 可接受的拆分场景

通常不建议拆分以避免故障范围扩大,但在特定场景下,拆分反而能提升可靠性。
例如,在超大规模数据中心的多平面网络(HPN)中,故意将800G端口拆分为4x200G,并交叉连接到不同平面。这样,任一端口故障只会损失1/4的带宽,有效分散了风险。
多平面网络中的端口拆分与光纤连接示意图
图:多平面组网中的端口拆分及复杂的光纤交叉连接

但这种布线极其复杂。为此,引入了 Shuffle Box(光纤配线重组盒)来预制连接逻辑,简化现场部署。
光纤Shuffle Box内部连接示意图
图:预先按规则配置好拆分和组合逻辑的光纤Shuffle Box
使用Shuffle Box简化布线的连接示意图
图:使用Shuffle Box后,布线变得清晰简洁

Shuffle Box本质是定制化的光纤配线,成本增加有限,但能大幅降低部署复杂度并可能减少信号插损。当然,其缺点在于故障更换和长度规划稍显复杂。

3. 光模块的“软”规格

大厂对光模块的严格要求,还体现在软件和管理层面,以实现标准化运维:

  • 标准管理接口:必须支持I²C接口,用于读取模块EEPROM信息(生产商、型号、实时温度、光功率、误码率等)。
  • 固件可升级:支持通过I²C进行固件升级。
  • 数据标准化:遵循CMIS等标准,确保各厂商模块信息格式统一,便于纳管平台进行资产管理、健康监测和故障预测。
  • 性能指标:出厂误码率(BER)在Scale-Out网络中尤为重要。更优的原始BER意味着模块在真实机房环境(存在灰尘、磨损)下有更大的工作余量,网络稳定性更高。

最后需要指出,光模块的所谓“暴利时代”已成过去,如今它是一个高度专业化、竞争充分且技术快速迭代的领域。对于数据中心网络工程师而言,理解其技术细节和选型逻辑,对于构建高效、可靠且成本优化的网络/系统至关重要。想了解更多关于服务器、存储及数据库/中间件/技术栈在分布式系统中的实践,欢迎访问云栈社区进行交流探讨。




上一篇:qmake多子项目构建详解:subdirs模板管理大型C++/Qt工程依赖
下一篇:如何利用Gemini3零代码快速生成AI爽文APP原型
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-24 04:03 , Processed in 0.400988 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表