云栈社区»论坛 › 技术文档「 Note & Doc 」 › GPU架构原理与产品选型全解析：从AI计算到深度学习硬件的10个核 ...

发回帖发新帖

2913 积分	0 好友	401 主题

发消息

GPU架构原理与产品选型全解析：从AI计算到深度学习硬件的10个核心知识点

发表于 2025-12-21 18:23:48 | 查看: 58| 回复: 0

本文将围绕GPU的10个核心知识点展开，首先对比GPU与CPU的架构差异，然后明确GPU与显卡的概念区别以及集成/独立显卡的分类。接着，我们将介绍GPGPU的定义、特点及其与传统GPU的不同，并细分消费级、专业级和数据中心级三类GPU卡。

此外，文章还会分析涡轮散热卡与风扇散热卡、公版与非公版显卡的区别，对比PCIe卡与SXM卡的规格参数及应用场景。最后，会说明NVIDIA HGX与DGX系列产品的关联，NVLink与NVSwitch互联技术的作用，以及A800、H800在特定参数上的调整情况，力求全面覆盖GPU的核心知识体系。

1. GPU vs CPU：核心架构差异

CPU（中央处理器）设计追求的是低延迟（Low Latency），擅长快速处理复杂的串行任务。其核心数量较少（通常为几个到几十个），但每个核心都非常强大，拥有大量的缓存（Cache）和控制单元，能够高效处理分支预测、乱序执行等复杂逻辑。

GPU（图形处理器）的设计目标则是高吞吐量（High Throughput），专为处理大规模并行计算任务而生。它拥有成千上万个精简的计算核心（Streaming Processors或CUDA Cores），这些核心结构相对简单，缓存较小，但通过数量优势，能够同时对海量数据（如图像像素、矩阵元素）执行相同的简单操作。

简单比喻：CPU像是一位博学多才的教授，能快速解答各种复杂难题；而GPU则像是一支庞大的学生军队，每人只做一道简单的算术题，但整体效率极高。

2. GPU 与显卡：概念辨析

GPU是一个具体的芯片，是执行图形和并行计算任务的核心处理器。

显卡（Graphics Card）则是一个完整的硬件板卡。它通常包含：

GPU芯片：计算核心。
显存（VRAM）：为GPU提供高速数据存储。
散热系统：如风扇或散热鳍片。
电源电路（PCB）：为GPU和显存供电。
视频输出接口：如HDMI, DisplayPort。

因此，GPU是显卡上最核心的部件，但二者不能完全等同。

3. 集成显卡 vs 独立显卡

集成显卡（Integrated Graphics）：

GPU核心被集成在CPU芯片内部或主板芯片组中。
共享系统主内存作为显存，带宽和容量受限。
功耗低，发热小，成本低。
性能一般，适用于日常办公、高清视频播放和轻度游戏。

独立显卡（Discrete Graphics Card）：

独立的板卡，通过PCIe插槽与主板连接。
拥有独立的GPU芯片和专用的高速GDDR显存。
性能强大，功耗和发热较高，成本也高。
适用于大型3D游戏、专业图形设计、科学计算和人工智能与深度学习等重度负载场景。对于需要进行大规模并行计算的开发者，掌握Python及其相关科学计算库是高效利用GPU资源的关键。

4. GPGPU：通用图形处理器计算

GPGPU（General-Purpose computing on Graphics Processing Units） 是指利用GPU原本为图形处理设计的大规模并行架构，来执行非图形渲染的通用计算任务。

传统GPU：固定功能的图形渲染管线，专为处理顶点、纹理、像素等图形数据优化。
GPGPU：通过如CUDA、OpenCL等编程模型，将GPU暴露为通用的并行计算设备。程序员可以编写核函数（Kernel），让成千上万的线程同时处理科学模拟、数据分析、密码破译、AI模型训练等任务。

正是GPGPU概念的兴起，使得GPU从单纯的游戏和图形工作站设备，转变为现代人工智能和高性能计算（HPC）的基石。

5. GPU产品分类：消费卡、专业卡、数据中心卡

根据应用场景和优化目标，GPU产品主要分为三类：

消费级显卡（Geforce系列）：

目标市场：游戏玩家、普通消费者。
特点：针对游戏帧率（FPS）优化，性价比高。
驱动：Game Ready驱动，为热门游戏提供优化。
代表：NVIDIA RTX系列，AMD Radeon RX系列。

专业级显卡（Quadro / RTX系列）：

目标市场：CAD/CAM/CAE设计、媒体内容创作（DCC）、科学研究可视化。
特点：注重渲染精度、稳定性、支持专业API（如OpenGL），通常配备ECC显存。
驱动：Studio或专业版驱动，经过ISV（独立软件供应商）认证。
代表：NVIDIA RTX A系列。

数据中心/计算卡（Tesla系列）：

目标市场：人工智能训练与推理、高性能计算、数据中心。
特点：极致计算性能（FP64/FP32/Tensor Core），高显存带宽和容量，支持NVLink高速互联，通常采用被动散热（需机箱风道配合）。
驱动：专为数据中心环境优化的驱动。
代表：NVIDIA A100, H100, AMD Instinct MI系列。

6. 涡轮卡 vs 风扇卡（鼓风机 vs 开放式散热）

涡轮散热（Blower Style）：

单个离心风扇，将冷空气从显卡前端吸入，加热后通过显卡尾部的挡板排到机箱外。
优点：热量直接排出机箱，不影响机箱内其他部件（如CPU）的散热，适合多卡并联或空间紧凑的机箱。
缺点：散热效率相对较低，噪音通常较大。

风扇散热（Open-Air / Axial Fan）：

多个轴流风扇，将冷空气吹向散热鳍片，热量在机箱内部扩散，依靠机箱风道排出。
优点：散热效率高，噪音相对较小（在良好风道下）。
缺点：热空气排在机箱内，对机箱整体风道要求高，多卡并联时上层卡会吸入下层卡排出的热风，导致散热效率下降。

7. 公版 vs 非公版

公版显卡（Reference Card）：

由GPU芯片制造商（如NVIDIA、AMD）亲自设计或提供基础设计方案。
旨在定义该GPU芯片的标准规格和外观，确保稳定性和兼容性。
通常首发上市，用料和散热设计相对保守。

非公版显卡（Non-Reference / AIB Card）：

由合作伙伴（如华硕、微星、技嘉等AIC厂商）基于公版设计进行再设计。
可能在PCB电路、供电相数、散热器（三风扇、水冷）、核心频率（超频版）、外观灯效等方面进行强化或改动。
选择多样，能满足不同用户对性能、静音、外观的特定需求。

8. PCIe卡 vs SXM模块卡

PCIe卡：

标准形态，通过PCIe插槽与服务器/工作站主板连接。
通用性强，兼容绝大多数标准服务器。
功耗受限于PCIe插槽供电（通常最高300W，外加外接供电）。
代表：绝大多数消费级、专业级和部分数据中心级显卡。

SXM模块卡：

专用形态，不包含PCIe金手指，通过特殊的SXM插座垂直插入专用主板。
通常用于NVIDIA的高端数据中心GPU（如A100, H100的SXM版本）。
优点：提供远超PCIe的供电能力（高达700W），支持更高的GPU功耗和性能释放；通常与NVLink高速互联紧密结合，带宽更高。
缺点：必须使用特定的服务器平台（如NVIDIA HGX）。

9. HGX与DGX平台

HGX：

是NVIDIA设计的GPU服务器基板参考架构。
像一块“主板”，其上可以搭载多个SXM形态的GPU（如4卡或8卡），并通过NVSwitch实现所有GPU间全互联的高带宽通信。
HGX板卡提供给服务器制造商（如戴尔、惠普、联想、超微），由他们整合成完整的服务器系统出售。

DGX：

是NVIDIA自主研发的完整AI超级计算机系统。
其核心就是基于HGX基板，并整合了CPU、内存、高速存储、网络以及优化的软件栈（如预装驱动、CUDA、深度学习框架）。
代表：DGX A100， DGX H100。DGX是开箱即用的企业级AI计算平台。

简单说，HGX是“核心主板”，DGX是包含这块主板的“品牌整机”。

10. NVLink， NVSwitch与特定型号解析

NVLink：

NVIDIA开发的高速GPU间互联技术，用于替代传统的PCIe进行多卡通信。
带宽远高于PCIe（例如NVLink 4.0可达900GB/s，而PCIe 5.0 x16为~128GB/s）。
允许GPU直接访问彼此显存，对于需要大规模显存的应用（如大模型训练）至关重要。

NVSwitch：

可以理解为一个用于连接多个GPU的“网络交换机”芯片。
在8卡或更多GPU的配置中，它允许所有GPU两两之间以NVLink全带宽互联，形成一个高速通信网络，避免多卡通信时的带宽瓶颈。

A800与H800：

这两款是中国市场特供的数据中心GPU型号，分别基于A100和H100。
主要的调整在于NVLink互联带宽被降低至符合相关出口管制规定。例如，A100的NVLink带宽为600GB/s，而A800降至400GB/s。
GPU本身的核心计算性能（如FP64， Tensor Core）在初期版本中保持不变，但互联带宽的削减会影响多卡并行训练超大模型时的扩展效率。在构建大规模AI训练集群时，这类硬件间的网络通信性能是需要重点考量的因素。

（GPU核心架构示意图）