近日,英伟达(NVIDIA)宣布正在开发一款用于可视化与监控其GPU集群的软件解决方案,旨在帮助云合作伙伴及企业客户深入洞察其AI数据中心基础设施的运行状况。公司特别强调,其GPU硬件层面并不包含任何远程追踪、后门或“终止开关”功能。
这项新推出的软件方案是英伟达为确保AI数据中心保持最佳运行状态而设计。它通过一个直观的洞察仪表板,使数据中心运营商能够实时监控整个AI GPU集群的运行情况,从而有效提升整个计算基础设施的GPU可用性与运行时间。
该功能将作为一项软件选件提供给用户,依赖于GPU的“机密计算”能力。客户可自行选择、安装并完全控制此服务,其核心用途在于监控GPU的使用情况、配置信息以及错误日志。
软件功能概述
通过部署此项服务,数据中心运营商将能够:
- 性能与功耗优化:追踪功耗峰值,在既定的能耗预算内最大化单位功耗性能。
- 集群健康度监控:全面监测集群的利用率、内存带宽及互连运行状况。
- 预防性维护:及早发现硬件热点和气流问题,以避免因过热导致的降频和组件过早老化。
- 配置一致性管理:确认软件配置与设置的一致性,确保计算结果的可靠复现与稳定运行。
- 故障预警与诊断:及时发现系统错误与异常情况,提前定位潜在故障部件。
这些功能的结合,旨在协助企业与云服务提供商将其GPU集群的可视化程度提升至新高度,系统性解决瓶颈问题并优化整体生产力,从而获得更高的投资回报。
技术实现与透明度
此项可选服务提供实时监测能力,允许每个GPU系统与外部云服务通信,并安全地共享GPU运行指标。服务的实现依赖于一个客户端软件代理(Agent),客户安装此代理后,即可将节点级的GPU遥测数据流式传输至托管在NVIDIA NGC上的集中管理门户。
客户可在仪表板中以全局视角,或按计算区域(即在同一物理或云位置注册的节点组)的方式,可视化其GPU集群的利用率。

值得注意的是,该客户端代理计划开源,以提供更高的透明度与可审计性。其开源代码也将作为一个实际范例,展示客户如何将英伟达的工具整合到他们自有的GPU基础设施监控解决方案中。
英伟达明确表示,该软件仅用于帮助企业了解其GPU资产状态,不具备修改GPU配置或底层运行机制的能力。其提供的所有遥测数据均为“只读”模式,并由客户全权管理与自定义。此外,该服务还支持客户生成详尽的GPU集群信息报告。
根据英伟达的进一步说明,“没有任何功能允许英伟达远程控制或对已注册系统采取行动”,发送至其服务器的数据仅为只读遥测信息,这意味着英伟达的服务器无法向芯片写入任何指令。公司重申:“英伟达GPU内部没有允许英伟达或任何远程参与者禁用GPU的功能。”
部署计划
据了解,该软件功能将率先在英伟达最新的Blackwell架构芯片平台上实现。同时,英伟达也在评估将该软件的适配选项延伸至前几代GPU产品的可能性。
|