找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3914

积分

0

好友

515

主题
发表于 昨天 21:01 | 查看: 6| 回复: 0

MSI RTX 5090 GAMING TRIO GDDR7 包装盒

GDDR7 显存到底有什么用

384 位宽的显存总线跑 21 Gbps,每秒能传 1,008 GB——刚好超过 1 TB。这是 RTX 4090 的显存带宽。

换成 512 位宽跑 28 Gbps,数字跳到 1,792 GB/s。RTX 5090 的带宽,比 4090 高出 78%。

这个差距的根源,是 GDDR7。


带宽决定了 GPU 能跑多快

显卡的工作流很直接:CPU 下达指令,GPU 从显存里抓数据,算完再写回去。在这套循环里,显存带宽就代表了 GPU 单位时间内能搬运的数据量。

GPU 的核心(CUDA 核心、Tensor Core、RT Core)算得再快,如果数据送不过来,也只能空转等着。业内管这个叫“饥饿”。“饥饿”意味着 GPU 有力使不出,帧率自然上不去。

带宽不足的后果很直接:跑 4K 光追时,显存读取速度跟不上 GPU 的运算速度,帧生成时间忽高忽低,画面就卡。


GDDR7 的核心变化:PAM3 信号编码

GDDR7 和上一代 GDDR6 / GDDR6X 最大的区别,在于信号编码方式。

GDDR6 用 NRZ(不归零)编码,每个时钟周期传 1 bit。GDDR6X 改用 PAM4,每个周期传 2 bit,但电压裕量太小,对信号噪声很敏感,PCB 设计和散热要求都更苛刻。

GDDR7 选择了 PAM3(三电平脉冲幅度调制),三个电压电平(-1、0、+1),每个周期传 1.5 bit。比 NRZ 多传 50%,而电压裕量又比 PAM4 高出约 50%。

落实到具体数字上:

  • 相同频率下,带宽比 GDDR6 提升 50%
  • 信号完整性优于 GDDR6X,对 PCB 设计要求更低
  • 能效比 GDDR6 提升约 20%

JEDEC 在 2024 年 3 月发布了 GDDR7 标准(JESD239),起始数据速率 32 Gbps。作为对比,GDDR6 和 GDDR6X 经过多年迭代才达到 24 Gbps。

厂商这边,美光 2025 年已出货 36 Gbps 的 3 GB 颗粒,三星出样了 36 Gbps 产品并展示了 40 Gbps 技术,SK 海力士规划了 40 Gbps,正在研发 48 Gbps 型号。


RTX 40 系 vs RTX 50 系:带宽数据

NVIDIA 官方公布了 RTX 50 系列四款桌面显卡的显存规格,与上一代对比如下:

型号 显存类型 位宽 数据速率 带宽 相比上一代提升
RTX 4090 GDDR6X 384-bit 21 Gbps 1,008 GB/s
RTX 5090 GDDR7 512-bit 28 Gbps 1,792 GB/s +78%
RTX 4080 GDDR6X 256-bit 22.4 Gbps 717 GB/s
RTX 5080 GDDR7 256-bit 30 Gbps 960 GB/s +34%
RTX 4070 Ti GDDR6X 192-bit 21 Gbps 504 GB/s
RTX 5070 Ti GDDR7 256-bit 28 Gbps 896 GB/s +78%
RTX 4070 GDDR6X 192-bit 21 Gbps 504 GB/s
RTX 5070 GDDR7 192-bit 28 Gbps 672 GB/s +33%

几个值得注意的地方。

RTX 5090 的带宽从 1 TB/s 跃升到了 1.8 TB/s。512 位宽加 28 Gbps GDDR7 把这个数字推到接近 2 TB/s。在 4K 全景光线追踪和 DLSS 多帧生成场景下,每帧需要处理的数据量远超上一代,高带宽直接缓解了显存瓶颈。

RTX 5070 Ti 的位宽从 192-bit 涨到了 256-bit,配合 GDDR7 的速度优势,带宽涨了 78%。中高端定位的产品拿到接近旗舰级别的带宽储备,这在 40 系时代是不太常见的。

RTX 5080 和 5070 的位宽和上一代一样,带宽增长全部来自 GDDR7 的速度提升——28~30 Gbps 对 21~22.4 Gbps,增幅分别是 34% 和 33%。


更高的带宽用在了哪些地方

4K 240 Hz 是 RTX 50 系列的主打目标。每帧渲染时间不到 4.2 毫秒,需要在极短时间内读取大量纹理和几何数据。以《赛博朋克 2077》为例,全景光线追踪模式下单帧可能需要读取数百 MB 的 BVH 数据和纹理。带宽不足,帧生成时间就不稳定。

Blackwell 架构引入的神经网络着色器,把小型神经网络塞进可编程着色器里,做纹理压缩(压缩比最高 7:1)、实时生成纹理这类事。这些神经网络推理操作需要在 GPU 核心和显存之间来回倒腾权重和中间结果。带宽越高,延迟越低,模型跑得越顺。

DLSS 4 的多帧生成,每渲染一帧传统画面,额外生成最多三帧。四帧的画面数据要在显存里缓存、处理、输出。Blackwell 还在硬件层加了 Flip Metering 来稳住帧率节奏——但这些全都依赖显存带宽喂数据。

生成式 AI 方面,NVIDIA 的数据显示,RTX 5090 在 FP4 精度下跑 FLUX.1 模型,图像生成时间从 RTX 4090 的 18 秒缩到 5 秒。其中一半以上的提速来自显存带宽增长和 FP4 精度支持带来的内存占用降低。

视频编辑场景里,50 系笔记本 GPU 的显存带宽比 40 系提升了 2 倍,3D 渲染和视频导出时间明显缩短。


输油管加粗了,引擎才能全开

40 系的 Ada Lovelace 架构到后期已经有点带宽吃紧了。RTX 4090 的 CUDA 核心从 3090 的 10,496 个加到 16,384 个(+56%),显存带宽只从 936 GB/s 涨到 1,008 GB/s(+7.7%)。核心增加的速度远快于带宽,很多场景下 GPU 在等数据。

50 系的 Blackwell 直接换了更大的管道。GDDR7 带来的带宽提升(33% 到 78%,看型号)让 GPU 核心能持续满载运转。

当然,Blackwell 的帧率飞跃不止靠显存。DLSS 4 多帧生成、第五代 Tensor Core(FP4 支持)、第四代 RT Core(光线三角形相交率翻倍)、神经网络着色器,这些架构层面的东西同样重要。但如果没有 GDDR7 把带宽地基打牢,这些东西的实际表现会被显存瓶颈拖着。


总结

GDDR7 的起点就是 32 Gbps,目前量产版本已经跑到 36 Gbps,厂商规划的上限在 40~48 Gbps。PAM3 编码让它在信号完整性和能效上找到了一个不错的平衡点。能效比 GDDR6 高了 20%,带宽起步就是上一代天花板的 1.3 倍。

对用户来说,最直接的感受是:4K 光追不卡了,AI 出图快了,DLSS 多帧生成能跑满了。GPU 不再因为等数据而空转。

数据来源:NVIDIA GeForce RTX 50 系列官网、JEDEC JESD239 标准文档、美光 GDDR7 技术白皮书、三星半导体官网、维基百科 GeForce RTX 50 系列页面。




上一篇:网络丢包排查实战:从ping到tcpdump的全链路分析
下一篇:从腾讯出走,他们做了款充满“贪婪”的独立游戏《哥布林维克》
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-4 03:25 , Processed in 0.789142 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表