GPU服务器整体与外观
虽然各厂商的专业GPU服务器在设计上存在一定差异,但总体结构大同小异。对于销售和技术人员来说,通晓这些主流结构,能极大地加深对GPU服务器硬件的全局理解。
下面是 NVIDIA DGX A100 服务器的半拆解图,可以清晰地看到其内部多层布局:

再来看 ASUS(华硕)HGX H100 服务器,这是其 GPU 模组与机头处于半抽拉状态的实拍图:

市面上一些厂商的 GPU 服务器前视图(前面板)如下,通常集成了硬盘插槽和控制接口:

这是某厂商风冷 GPU 服务器的后视图(后面板),可以看到密集的扩展接口和风扇模块:

再来看看液冷方案的后视图,线缆和管路布局会有所不同,但对外的IO面板和监控接口仍然清晰可辨:

GPU服务器各部分模块与部件
一台典型的 GPU 服务器,其核心可以拆解为以下模块:

再深入一层,各模块所包含的具体部件分解图如下:

GPU服务器中最核心的两大模块
整个系统最核心的两大模块,分别是 GPU 节点(将其外壳去掉,便露出了 GPU 模组)和 机头(即去掉外壳后的 CPU 计算节点)。这两部分的性能直接决定了整机的算力上限。
GPU模组及构成
GPU模组是整台机器的“火力来源”。下图直观对比了风冷和液冷两种形态的 OAM 8-GPU 模组:

其内部具体部件构成如下:

GPU模组主要由以下几大核心部分组成:GPU模组板(UBB)、GPU芯片、NVSwitch芯片,以及GPU散热器。
- GPU模组板(UBB):全称 Unit Base Board,它的作用是将多个 GPU 整合成一个矩阵平台,为 GPU 之间、GPU 与 CPU 之间提供高速的数据交换通路。
- OAM GPU模块:遵循开放加速器模块(Open Accelerator Module)标准设计,可以直接插接到 GPU 模组板上,例如我们熟知的 SXM A100 GPU。
- NVSwitch芯片:专门负责在多颗 GPU 之间建立起超高速的数据通信桥梁。
- GPU散热器:顾名思义,为高功耗的 GPU 提供散热保障。
CPU计算节点(机头)及构成
机头(CPU 计算节点)负责通用计算和整机管理,其部件分解图如下:

以下是各编号部件的详细职责,掌握这些对理解服务器的智能 & 数据 & 云处理能力至关重要:
- 1- CPU计算节点机箱盖:覆盖于计算节点机箱之上,保护内部所有精密部件。
- 2- 存储控制卡:为 SAS/SATA 硬盘提供 RAID 支持,具备 RAID 配置、扩容等功能,并支持在线升级固件与远程设置。
- 3- 提升卡/Riser卡:作为转接卡,让 PCIe 卡能够通过它顺利安装到服务器主板上。
- 4- 超级电容固定座:顾名思义,用于将超级电容稳妥地固定在机箱内。
- 5- 服务器管理模块:提供各类 IO 接口及 HDM 带外管理功能,是运维的神经中枢。
- 6- OCP转接模块:用于安装遵循开放计算项目(OCP)规范设计的网络接口卡。
- 7- 导风罩:为 CPU 散热器和内存构建高效的散热风道,同时也为超级电容提供安装位置。
- 8- CPU散热罩:专为 CPU 散热而生。
- 9- 内存:暂时存放 CPU 的运算数据,以及与硬盘等外部存储器交换的数据。该平台支持 DDR5 内存,可适配 RDIMM 或 LRDIMM。
- 10- CPU:集成内存控制器与 PCIe 控制器,为服务器提供澎湃的数据处理动力。
- 11- 标准PCIe网卡:支持安装到标准 PCIe 插槽的常规网卡。
- 12- 后部硬盘笼:用于灵活扩展后部硬盘位。
- 13- 网卡转接模块:包含 4 卡和 8 卡两种规格,以适配不同数量的网卡需求。
- 14- OCP网卡:必须安装在 OCP 转接模块上才能工作。
- 15- 汇流条:负责接通电源转接板和 PCIe Switch 转接板之间的电流通路。
- 16- 电源转接板:将外部电源引入 GPU 节点,并将电源状态实时传递到主板。
- 17- 加密模块:为服务器提供硬件级加密服务,提升数据安全性。
- 18- M.2 SSD卡:为服务器提供高速的数据存储介质。
- 19- 超级电容:在系统意外掉电时,为存储控制卡上的 Flash 卡供电,实现关键数据的掉电保护。
- 20- CPU计算节点电源模块:为 CPU 计算节点运行提供电力转换。该模块支持热插拔,并支持 1+1 冗余。
- 21- GPU电源模块:为 GPU 节点、风扇、前部硬盘框模块、网卡转接模块等提供电力转换。它同样支持热插拔,且支持 3+3 冗余。
- 22- PCIe Switch转接板:用于扩展 PCIe 信号,通过 PCIe Switch 实现 GPU 与硬盘、网卡的高效互联。
- 23- 主板:服务器的基石,集成了 BIOS 芯片、PCIe 插槽等基础元器件,用于承载 CPU 和内存。
- 24- 计算节点机箱:将所有计算节点的部件集中整合到一起。
|