安全研究人员近期演示了一种针对 NVIDIA GPU 的新型 Rowhammer 攻击。该攻击可逐步从内存损坏升级至完全控制系统,这标志着硬件安全风险的态势发生了重大转变。
正如近期学术研究中描述的那样,这些被称为 GDDRHammer 和 GeForce/GeForge 的攻击利用了 GDDR6 GPU 内存的漏洞,可以获得任意的读写权限,最终使攻击者能够控制主机 CPU 和系统内存。
这些研究发现基于之前对 Rowhammer 漏洞的广泛研究。Rowhammer 是 DRAM 中一个早已为人所知的硬件缺陷:通过反复访问(“敲击”)内存行,可以诱导相邻内存单元发生位翻转,从而绕过传统的隔离机制。
虽然一直以来该漏洞都被认为主要与系统 RAM 相关,但研究人员现在已经证明,类似的技术也可以应用在GPU内存上。这极大地扩展了攻击面,特别是在共享 GPU 的环境中,例如云基础设施和 AI 训练平台。
与早期攻击主要针对 GPU 且主要影响应用程序行为(例如降低 AI 模型准确性)不同,这些新技术展现出了端到端的入侵能力。通过在 GPU 内存中精心诱导实现位翻转,攻击者可以操纵页表和内存映射,从而有效地将 GPU 与 CPU 内存空间连接起来。这使得攻击者能够在未经授权的情况下访问系统内存,在某些情况下甚至可以完全控制整台机器。
研究表明,像 GDDRHammer 这样的攻击能够产生大量针对性的位翻转,某些情况下每个内存体超过 100 次,同时还能绕过现有的 GPU 防护机制。更高级的变种甚至可以将 GPU 内存访问重定向到 CPU 内存,使攻击者能够读取或修改 GPU 之外的敏感数据。
这对 AI 和云计算环境的影响尤为严重,因为在这些环境中,GPU 通常会被不同的工作负载和用户共享。在这种情况下,攻击者可能无需直接访问受害者的数据,而只需要共享同一块 GPU 硬件的访问权限,即可干扰工作负载或提升权限。这使得多租户 GPU 集群成为这类攻击的高风险目标。
该研究还凸出了一个更广泛的趋势:随着 GPU 逐渐发展成为现代计算的核心,从生成式 AI 到高性能工作负载都重度依赖它。GPU 正日益成为安全威胁格局中的关键部分,而不再仅仅是性能加速器。
由于 Rowhammer 式攻击具有硬件层面的特性,所以防范这类攻击仍然非常具有挑战性。潜在的防御措施包括:启用纠错码(ECC)内存、提高内存刷新频率,或通过 IOMMU 等技术限制 GPU 对系统内存的访问。然而,这些措施往往会影响性能,而且面对复杂的攻击模式时效果有限。
更复杂的是,有研究表明,即使是 DRAM 中的现代缓解技术,也未必总能完全防止 Rowhammer 攻击,尤其是在内存密度不断提高、攻击手段不断发展变化的情况下。
基于 GPU 的 Rowhammer 攻击的出现,将这一存在十余年的漏洞扩展到了新的领域,这是硬件安全威胁显著升级的标志。随着攻击者越来越多地将目标锁定在共享基础设施和计算栈的底层部分,该研究强调,需要采用跨层安全策略,将硬件防护、系统级隔离以及基于工作负载的防御措施结合起来。
对于高度依赖 GPU 的组织而言,尤其是在 AI 和云环境中,其中传达出的信息非常明确:硬件已经不再是绝对值得信赖的防护边界。相反,在不断演变的威胁形势下,必须对硬件进行主动监控、强化防护,并将其纳入更广泛的安全策略之中。
这项研究引发了广泛的技术安全讨论,您也可以在 云栈社区 的安全与硬件板块中找到更多深入的技术分析与防御实践分享。
|