找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3014

积分

0

好友

414

主题
发表于 12 小时前 | 查看: 1| 回复: 0

当前,大模型的规模和复杂度持续攀升,对训练和推理所需的算力提出了远超摩尔定律所能满足的要求。为应对这一挑战,NVIDIA 采取了“极致协同设计”(extreme codesign)策略——通过在多芯片硬件与庞大软件栈之间进行深度协同优化,实现 AI 工厂在性能和能效上的代际跃升。

在这一战略中,低精度数值格式扮演着关键角色。降低计算精度可显著提升算力效率并减少能耗,但要在保持高准确率的前提下将超低精度引入 AI训练 和推理,需要在技术栈的每一层进行系统性工程创新:从数值格式的定义、芯片上的硬件实现,到各类软件库的支持,再到与生态伙伴共同开发新的训练方法和推理优化技术。

NVFP4 正是这一努力的成果。该格式由 NVIDIA 为 Blackwell 架构及后续平台开发并部署,首次在 GPU 上实现了 4 比特浮点(4-bit floating-point)精度的完整支持,在大幅提高性能与能效的同时,保持了与更高精度格式相当的模型准确率。

对于希望最大化 AI 训练与推理性能的开发者和企业,以下是关于 NVFP4 的三个关键事实。

01 NVFP4 在 Blackwell 架构上带来显著性能跃升,并将持续演进

NVIDIA Blackwell Ultra GPU 的峰值密集型 NVFP4 算力高达 15 petaFLOPS,是同一 GPU 上 FP8 精度的 3 倍。这种提升不仅体现在理论峰值,更在实际工作负载中得到验证。

在推理方面,以热门的 6710 亿参数混合专家模型 DeepSeek-R1 为例,从 FP8 切换到 NVFP4 后,在相同交互延迟水平下,单 GPU 的 token 吞吐量显著提升。这意味着系统不仅能维持原有响应速度,还能支持更高的并发请求或更复杂的生成任务,从而改善用户体验。

DeepSeek-R1推理性能对比折线图

在训练方面,NVIDIA 近期发布了基于 NVFP4 的训练方案。在最新版 MLPerf Training 基准测试中,512 颗 Blackwell Ultra GPU 组成的 GB300 NVL72 系统使用 NVFP4 完成 Llama 3.1 405B 模型的预训练仅耗时 64.6 分钟,比此前使用 FP8 的 512 颗 Blackwell GPU 快 1.9 倍。

NVFP4在不同GPU架构上的训练性能对比柱状图

展望未来,NVIDIA 即将推出的 Rubin 平台将进一步放大 NVFP4 的优势:其训练算力将达到 35 petaFLOPS,Transformer Engine 推理算力达 50 petaFLOPS,分别是 Blackwell 的 3.5 倍和 5 倍。

02 NVFP4 在主流基准测试中验证了高准确率

MLPerf 基准测试的“封闭分区”(closed division)对提交结果有严格的准确率要求:推理需满足特定任务的精度阈值,训练则必须使模型收敛至指定质量目标。

在最新一轮 MLPerf 中,NVIDIA 使用 Blackwell 和 Blackwell Ultra GPU,基于 NVFP4 成功提交了所有大型语言模型(LLM)测试项的结果,涵盖训练与推理多个场景,包括 DeepSeek-R1、Llama 3.1(8B 与 405B)、Llama 2 70B 等。所有模型均采用 NVFP4 量化版本,并完全满足基准的准确率标准。

DeepSeek-R1模型在FP8与NVFP4下的评估准确率对比柱状图

这表明,NVFP4 不仅能提升性能,还能在真实应用场景中维持模型的核心能力。

03 NVFP4 获得广泛且快速增长的生态支持

NVIDIA 已构建完整的工具链支持 NVFP4 的落地。开发者可通过 NVIDIA Model Optimizer、LLM Compressor 和 PyTorch 的 torch.ao 等工具,将高精度训练好的模型量化为 NVFP4 格式,并启用 NVFP4 KV 缓存,以支持长上下文和大批次推理,同时保持准确率。

主流推理框架如 TensorRT-LLM、vLLM 和 SGLang 均已支持 NVFP4 模型运行。在 Hugging Face 上,用户可直接获取多个 ready-to-deploy 的 NVFP4 模型,包括 Llama 3.3 70B、FLUX.2、DeepSeek-R1-0528、Kimi-K2-Thinking、Qwen3-235B-A22B 和 NVIDIA Nemotron Nano 等。

多家企业已在生产环境中采用 NVFP4 提升效率:

  • Black Forest Labs 在 Blackwell 上为 FLUX.2 模型部署 NVFP4 推理,结合 CUDA Graphs、torch.compile 和 TeaCache 等优化,单颗 B200 GPU 实现最高 6.3 倍加速,显著降低延迟。
  • Radical Numerics 利用 NVFP4 加速科学世界模型的扩展,其首席 AI 科学家表示,低精度方案对处理超长上下文和多模态融合至关重要。
  • Cognition 在大规模强化学习中观察到“显著的延迟降低和吞吐提升”。
  • Red Hat 通过 NVFP4 量化,在严格内存限制下运行前沿模型和 MoE 模型,既保持接近原始精度,又支持更大上下文窗口和更高并发。

此外,NVIDIA Transformer Engine 库已集成 NVFP4 训练方案,Megatron-Bridge 等训练框架也提供相应实现,帮助开发者快速上手。

04 结语

NVFP4 代表了 NVIDIA 在 AI 算力效率上的重大突破。通过极致的软硬件协同设计,它在 Blackwell 及未来的 Rubin 平台上实现了性能、能效与准确率的平衡。随着大量开源模型提供 NVFP4 版本,开发者现在即可部署更高吞吐、更低每百万 token 成本的服务。

随着 Rubin 平台进一步增强 NVFP4 能力,AI 模型的训练与推理将迎来新一轮效率革命——更快、更省、更强。对这类前沿硬件加速和 深度学习 优化技术感兴趣的开发者,可以关注云栈社区,获取更多深度解析和实践分享。




上一篇:iPhone 17e发布在即:A19芯片加持、支持MagSafe,国行4499元起价不变
下一篇:卷积神经网络CNN详解:从LeNet到图像识别的核心原理
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-9 20:34 , Processed in 0.413414 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表