
GDDR7 显存到底有什么用
384 位宽的显存总线跑 21 Gbps,每秒能传 1,008 GB——刚好超过 1 TB。这是 RTX 4090 的显存带宽。
换成 512 位宽跑 28 Gbps,数字跳到 1,792 GB/s。RTX 5090 的带宽,比 4090 高出 78%。
这个差距的根源,是 GDDR7。
带宽决定了 GPU 能跑多快
显卡的工作流很直接:CPU 下达指令,GPU 从显存里抓数据,算完再写回去。在这套循环里,显存带宽就代表了 GPU 单位时间内能搬运的数据量。
GPU 的核心(CUDA 核心、Tensor Core、RT Core)算得再快,如果数据送不过来,也只能空转等着。业内管这个叫“饥饿”。“饥饿”意味着 GPU 有力使不出,帧率自然上不去。
带宽不足的后果很直接:跑 4K 光追时,显存读取速度跟不上 GPU 的运算速度,帧生成时间忽高忽低,画面就卡。
GDDR7 的核心变化:PAM3 信号编码
GDDR7 和上一代 GDDR6 / GDDR6X 最大的区别,在于信号编码方式。
GDDR6 用 NRZ(不归零)编码,每个时钟周期传 1 bit。GDDR6X 改用 PAM4,每个周期传 2 bit,但电压裕量太小,对信号噪声很敏感,PCB 设计和散热要求都更苛刻。
GDDR7 选择了 PAM3(三电平脉冲幅度调制),三个电压电平(-1、0、+1),每个周期传 1.5 bit。比 NRZ 多传 50%,而电压裕量又比 PAM4 高出约 50%。
落实到具体数字上:
- 相同频率下,带宽比 GDDR6 提升 50%
- 信号完整性优于 GDDR6X,对 PCB 设计要求更低
- 能效比 GDDR6 提升约 20%
JEDEC 在 2024 年 3 月发布了 GDDR7 标准(JESD239),起始数据速率 32 Gbps。作为对比,GDDR6 和 GDDR6X 经过多年迭代才达到 24 Gbps。
厂商这边,美光 2025 年已出货 36 Gbps 的 3 GB 颗粒,三星出样了 36 Gbps 产品并展示了 40 Gbps 技术,SK 海力士规划了 40 Gbps,正在研发 48 Gbps 型号。
RTX 40 系 vs RTX 50 系:带宽数据
NVIDIA 官方公布了 RTX 50 系列四款桌面显卡的显存规格,与上一代对比如下:
| 型号 |
显存类型 |
位宽 |
数据速率 |
带宽 |
相比上一代提升 |
| RTX 4090 |
GDDR6X |
384-bit |
21 Gbps |
1,008 GB/s |
— |
| RTX 5090 |
GDDR7 |
512-bit |
28 Gbps |
1,792 GB/s |
+78% |
| RTX 4080 |
GDDR6X |
256-bit |
22.4 Gbps |
717 GB/s |
— |
| RTX 5080 |
GDDR7 |
256-bit |
30 Gbps |
960 GB/s |
+34% |
| RTX 4070 Ti |
GDDR6X |
192-bit |
21 Gbps |
504 GB/s |
— |
| RTX 5070 Ti |
GDDR7 |
256-bit |
28 Gbps |
896 GB/s |
+78% |
| RTX 4070 |
GDDR6X |
192-bit |
21 Gbps |
504 GB/s |
— |
| RTX 5070 |
GDDR7 |
192-bit |
28 Gbps |
672 GB/s |
+33% |
几个值得注意的地方。
RTX 5090 的带宽从 1 TB/s 跃升到了 1.8 TB/s。512 位宽加 28 Gbps GDDR7 把这个数字推到接近 2 TB/s。在 4K 全景光线追踪和 DLSS 多帧生成场景下,每帧需要处理的数据量远超上一代,高带宽直接缓解了显存瓶颈。
RTX 5070 Ti 的位宽从 192-bit 涨到了 256-bit,配合 GDDR7 的速度优势,带宽涨了 78%。中高端定位的产品拿到接近旗舰级别的带宽储备,这在 40 系时代是不太常见的。
RTX 5080 和 5070 的位宽和上一代一样,带宽增长全部来自 GDDR7 的速度提升——28~30 Gbps 对 21~22.4 Gbps,增幅分别是 34% 和 33%。
更高的带宽用在了哪些地方
4K 240 Hz 是 RTX 50 系列的主打目标。每帧渲染时间不到 4.2 毫秒,需要在极短时间内读取大量纹理和几何数据。以《赛博朋克 2077》为例,全景光线追踪模式下单帧可能需要读取数百 MB 的 BVH 数据和纹理。带宽不足,帧生成时间就不稳定。
Blackwell 架构引入的神经网络着色器,把小型神经网络塞进可编程着色器里,做纹理压缩(压缩比最高 7:1)、实时生成纹理这类事。这些神经网络推理操作需要在 GPU 核心和显存之间来回倒腾权重和中间结果。带宽越高,延迟越低,模型跑得越顺。
DLSS 4 的多帧生成,每渲染一帧传统画面,额外生成最多三帧。四帧的画面数据要在显存里缓存、处理、输出。Blackwell 还在硬件层加了 Flip Metering 来稳住帧率节奏——但这些全都依赖显存带宽喂数据。
生成式 AI 方面,NVIDIA 的数据显示,RTX 5090 在 FP4 精度下跑 FLUX.1 模型,图像生成时间从 RTX 4090 的 18 秒缩到 5 秒。其中一半以上的提速来自显存带宽增长和 FP4 精度支持带来的内存占用降低。
视频编辑场景里,50 系笔记本 GPU 的显存带宽比 40 系提升了 2 倍,3D 渲染和视频导出时间明显缩短。
输油管加粗了,引擎才能全开
40 系的 Ada Lovelace 架构到后期已经有点带宽吃紧了。RTX 4090 的 CUDA 核心从 3090 的 10,496 个加到 16,384 个(+56%),显存带宽只从 936 GB/s 涨到 1,008 GB/s(+7.7%)。核心增加的速度远快于带宽,很多场景下 GPU 在等数据。
50 系的 Blackwell 直接换了更大的管道。GDDR7 带来的带宽提升(33% 到 78%,看型号)让 GPU 核心能持续满载运转。
当然,Blackwell 的帧率飞跃不止靠显存。DLSS 4 多帧生成、第五代 Tensor Core(FP4 支持)、第四代 RT Core(光线三角形相交率翻倍)、神经网络着色器,这些架构层面的东西同样重要。但如果没有 GDDR7 把带宽地基打牢,这些东西的实际表现会被显存瓶颈拖着。
总结
GDDR7 的起点就是 32 Gbps,目前量产版本已经跑到 36 Gbps,厂商规划的上限在 40~48 Gbps。PAM3 编码让它在信号完整性和能效上找到了一个不错的平衡点。能效比 GDDR6 高了 20%,带宽起步就是上一代天花板的 1.3 倍。
对用户来说,最直接的感受是:4K 光追不卡了,AI 出图快了,DLSS 多帧生成能跑满了。GPU 不再因为等数据而空转。
数据来源:NVIDIA GeForce RTX 50 系列官网、JEDEC JESD239 标准文档、美光 GDDR7 技术白皮书、三星半导体官网、维基百科 GeForce RTX 50 系列页面。