找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2024

积分

0

好友

266

主题
发表于 前天 02:53 | 查看: 13| 回复: 0

在追求高效率与低成本的AI模型推理之路上,总有一些令人兴奋的突破。近日,开发者社区传来好消息:通过一个开源的补丁(Patch),成功在单张NVIDIA RTX 5090显卡上驱动了Qwen3.5 35B A3B大模型。更关键的是,经过NVFP4量化后,推理速度实现了从150 TPS到200 TPS的显著跃升,为本地AI应用开发打开了新的可能。

NVIDIA GeForce RTX 5090显卡

🚀 两个版本性能速览

得益于这个开源 Patch,开发者可以根据需求选择不同的模型进行部署。以下是两个主要版本的核心信息对比:

版本 模型 速度提升 链接
原版 Qwen3.5 35B A3B 150 TPS → 200 TPS 仓库
Fork 版 Qwen3.5 27B 55 TPS → 80 TPS 仓库

重要提示:两个版本均能完整支持长达256K的上下文长度(使用FP8量化),这让消费级硬件也能流畅驾驭需要超长上下文的大模型推理任务。


📚 技术背景解析

Qwen3.5:阿里云的“原生多模态代理”模型家族

Qwen3.5是阿里巴巴Qwen系列的最新迭代,于2026年2月发布。它采用了创新的混合架构,结合了Gated Delta Networks(门控增量网络)和稀疏专家混合(MoE)技术。其总参数高达397B,但激活参数仅为17B,这种设计在保证强大能力的同时,极大地提升了推理效率。

系列主要成员包括

  • 🏆 旗舰版:Qwen3.5-397B-A17B(397B参数,17B激活)
  • 📦 中型版:Qwen3.5-35B-A3B(35B参数,3B激活)
  • 💡 轻量版:Qwen3.5-27B(27B参数,纯稠密架构)

社区实测反馈表明,Qwen3.5在本地运行时,即使是4-bit量化版本也几乎感知不到精度损失,非常适合在桌面级硬件上部署,是探索大模型推理的理想选择。

vLLM:高效推理引擎的幕后英雄

vLLM由加州大学伯克利分校开发,是一个开源的高吞吐量LLM推理引擎。其核心优势在于采用了PagedAttention算法,优化了KV缓存管理,有效避免了内存碎片化问题,并支持连续批处理和分布式推理。

相比传统推理框架,vLLM能将模型吞吐量提升数倍,尤其在运行量化模型时表现更为突出。在本项目中,vLLM被用于实现对RTX 5090显卡NVFP4量化格式的支持,开发者通过Patch使其能充分发挥新硬件的特性,从而实现推理速度的飞跃。

NVFP4量化:Blackwell架构的“黑科技”

NVFP4是NVIDIA为其Blackwell架构GPU(如RTX 5090)引入的一种4-bit浮点格式,专为高效推理设计。它采用了双级缩放策略(E4M3细粒度缩放 + FP32标量),旨在4-bit的精度下最小化量化误差。

与之前的MXFP4格式相比,NVFP4将块大小从32减少到16,更好地适应了数据的动态范围,内存占用减少了约1.6倍。将NVFP4应用于Qwen3.5模型后,模型权重可以从FP16/FP8压缩到4-bit,且几乎无损精度。这使得单张RTX 5090显卡就能轻松运行大型语言模型,社区测试显示,即使在250K的超长上下文下,推理速度仍能达到160 TPS。

RTX 5090:消费级AI推理的“性能怪兽”

RTX 5090是NVIDIA GeForce RTX 50系列的旗舰显卡,基于全新的Blackwell架构打造。

核心规格一览

  • 🎮 21,760个CUDA核心
  • 💾 32GB GDDR7显存(带宽高达1.79 TB/s)
  • ⚡ 3352 AI TOPS(人工智能运算性能)
  • 🔥 575W TDP(热设计功耗)

与RTX 4090相比,RTX 5090在AI任务上的性能提升高达3倍,并原生支持FP4精度加速。在实际的本地推理测试中,RTX 5090能够以112-114 TPS的速度运行Qwen3.5-35B-A3B的4-bit量化版本,甚至在262K的极端上下文长度下也能保持速度不衰减。


🔧 上手实战:一步步部署指南

硬件与环境准备

  • 显卡:RTX 5090 或类似基于Blackwell架构的GPU。
  • 驱动:NVIDIA 驱动程序 580.x 或更高版本。
  • 软件:安装好Docker以及NVIDIA Container Toolkit。

安装与部署步骤

  1. 克隆仓库
    git clone https://github.com/aliez-ren/vllm-qwen3.5-nvfp4-sm120
  2. 配置环境
    cd vllm-qwen3.5-nvfp4-sm120
    cp .env.example .env

    编辑 .env 文件,设置你的 HF_TOKEN(Hugging Face访问令牌)以及模型缓存路径。

  3. 启动推理服务
    docker compose up -d
  4. 查看服务日志
    docker compose logs -f
  5. 测试API接口
    服务启动后,你可以使用任何兼容OpenAI API的客户端(如openai Python库)调用 localhost:8000。模型路径可设置为 Kbenkhaled/Qwen3.5-35B-A3B-NVFP4

注意事项:首次加载模型可能需要5-10分钟的时间。该补丁理论上具有通用性,但目前仅在RTX 5090上经过测试。使用时请遵守Qwen模型的相应许可协议。如果你想深入了解更多类似的技术文档和部署细节,可以在技术社区进行交流探讨。


📊 性能基准数据

上下文长度 生成速度 (TPS) VRAM 占用
4K 196 ~27GB
256K 156 ~27GB
250K 160 -

社区实测补充反馈

  • RTX 3090:运行Qwen3.5-35B-A3B可达112 TPS。
  • RTX 4060 (8GB):运行Qwen3.5-9B可达37 TPS。

这个项目的重要意义在于,它填补了vLLM推理引擎对SM 12.0计算能力(即RTX 5090)上FP4量化支持的空缺。此类优化未来很可能被合并到vLLM的上游主分支中。


💡 结语:开启本地AI推理的新篇章

这个开源补丁带来的不仅仅是速度的数字提升,它更象征着大模型推理能力正通过消费级硬件实现“民主化”。将Qwen3.5模型的强大能力与RTX 5090的硬件加速特性相结合,开发者能够以更低的成本构建个性化的AI代理、智能代码助手或多模态工具。

随着vLLM等主流推理框架的持续迭代,类似的底层优化会变得越来越普及。如果你手边正好有一张RTX 5090,不妨亲自尝试一下这个项目——或许下一个令人惊喜的AI应用,就会诞生在你的桌面电脑上。




上一篇:2026政府工作报告数据安全解读:筑牢屏障,赋能新质生产力发展
下一篇:Linux/Windows系统镜像官方下载地址全攻略:从桌面到服务器
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-10 10:25 , Processed in 0.568843 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表