在追求高效率与低成本的AI模型推理之路上,总有一些令人兴奋的突破。近日,开发者社区传来好消息:通过一个开源的补丁(Patch),成功在单张NVIDIA RTX 5090显卡上驱动了Qwen3.5 35B A3B大模型。更关键的是,经过NVFP4量化后,推理速度实现了从150 TPS到200 TPS的显著跃升,为本地AI应用开发打开了新的可能。

🚀 两个版本性能速览
得益于这个开源 Patch,开发者可以根据需求选择不同的模型进行部署。以下是两个主要版本的核心信息对比:
| 版本 |
模型 |
速度提升 |
链接 |
| 原版 |
Qwen3.5 35B A3B |
150 TPS → 200 TPS |
仓库 |
| Fork 版 |
Qwen3.5 27B |
55 TPS → 80 TPS |
仓库 |
重要提示:两个版本均能完整支持长达256K的上下文长度(使用FP8量化),这让消费级硬件也能流畅驾驭需要超长上下文的大模型推理任务。
📚 技术背景解析
Qwen3.5:阿里云的“原生多模态代理”模型家族
Qwen3.5是阿里巴巴Qwen系列的最新迭代,于2026年2月发布。它采用了创新的混合架构,结合了Gated Delta Networks(门控增量网络)和稀疏专家混合(MoE)技术。其总参数高达397B,但激活参数仅为17B,这种设计在保证强大能力的同时,极大地提升了推理效率。
系列主要成员包括:
- 🏆 旗舰版:Qwen3.5-397B-A17B(397B参数,17B激活)
- 📦 中型版:Qwen3.5-35B-A3B(35B参数,3B激活)
- 💡 轻量版:Qwen3.5-27B(27B参数,纯稠密架构)
社区实测反馈表明,Qwen3.5在本地运行时,即使是4-bit量化版本也几乎感知不到精度损失,非常适合在桌面级硬件上部署,是探索大模型推理的理想选择。
vLLM:高效推理引擎的幕后英雄
vLLM由加州大学伯克利分校开发,是一个开源的高吞吐量LLM推理引擎。其核心优势在于采用了PagedAttention算法,优化了KV缓存管理,有效避免了内存碎片化问题,并支持连续批处理和分布式推理。
相比传统推理框架,vLLM能将模型吞吐量提升数倍,尤其在运行量化模型时表现更为突出。在本项目中,vLLM被用于实现对RTX 5090显卡NVFP4量化格式的支持,开发者通过Patch使其能充分发挥新硬件的特性,从而实现推理速度的飞跃。
NVFP4量化:Blackwell架构的“黑科技”
NVFP4是NVIDIA为其Blackwell架构GPU(如RTX 5090)引入的一种4-bit浮点格式,专为高效推理设计。它采用了双级缩放策略(E4M3细粒度缩放 + FP32标量),旨在4-bit的精度下最小化量化误差。
与之前的MXFP4格式相比,NVFP4将块大小从32减少到16,更好地适应了数据的动态范围,内存占用减少了约1.6倍。将NVFP4应用于Qwen3.5模型后,模型权重可以从FP16/FP8压缩到4-bit,且几乎无损精度。这使得单张RTX 5090显卡就能轻松运行大型语言模型,社区测试显示,即使在250K的超长上下文下,推理速度仍能达到160 TPS。
RTX 5090:消费级AI推理的“性能怪兽”
RTX 5090是NVIDIA GeForce RTX 50系列的旗舰显卡,基于全新的Blackwell架构打造。
核心规格一览:
- 🎮 21,760个CUDA核心
- 💾 32GB GDDR7显存(带宽高达1.79 TB/s)
- ⚡ 3352 AI TOPS(人工智能运算性能)
- 🔥 575W TDP(热设计功耗)
与RTX 4090相比,RTX 5090在AI任务上的性能提升高达3倍,并原生支持FP4精度加速。在实际的本地推理测试中,RTX 5090能够以112-114 TPS的速度运行Qwen3.5-35B-A3B的4-bit量化版本,甚至在262K的极端上下文长度下也能保持速度不衰减。
🔧 上手实战:一步步部署指南
硬件与环境准备
- 显卡:RTX 5090 或类似基于Blackwell架构的GPU。
- 驱动:NVIDIA 驱动程序 580.x 或更高版本。
- 软件:安装好Docker以及NVIDIA Container Toolkit。
安装与部署步骤
- 克隆仓库
git clone https://github.com/aliez-ren/vllm-qwen3.5-nvfp4-sm120
- 配置环境
cd vllm-qwen3.5-nvfp4-sm120
cp .env.example .env
编辑 .env 文件,设置你的 HF_TOKEN(Hugging Face访问令牌)以及模型缓存路径。
- 启动推理服务
docker compose up -d
- 查看服务日志
docker compose logs -f
- 测试API接口
服务启动后,你可以使用任何兼容OpenAI API的客户端(如openai Python库)调用 localhost:8000。模型路径可设置为 Kbenkhaled/Qwen3.5-35B-A3B-NVFP4。
注意事项:首次加载模型可能需要5-10分钟的时间。该补丁理论上具有通用性,但目前仅在RTX 5090上经过测试。使用时请遵守Qwen模型的相应许可协议。如果你想深入了解更多类似的技术文档和部署细节,可以在技术社区进行交流探讨。
📊 性能基准数据
| 上下文长度 |
生成速度 (TPS) |
VRAM 占用 |
| 4K |
196 |
~27GB |
| 256K |
156 |
~27GB |
| 250K |
160 |
- |
社区实测补充反馈:
- RTX 3090:运行Qwen3.5-35B-A3B可达112 TPS。
- RTX 4060 (8GB):运行Qwen3.5-9B可达37 TPS。
这个项目的重要意义在于,它填补了vLLM推理引擎对SM 12.0计算能力(即RTX 5090)上FP4量化支持的空缺。此类优化未来很可能被合并到vLLM的上游主分支中。
💡 结语:开启本地AI推理的新篇章
这个开源补丁带来的不仅仅是速度的数字提升,它更象征着大模型推理能力正通过消费级硬件实现“民主化”。将Qwen3.5模型的强大能力与RTX 5090的硬件加速特性相结合,开发者能够以更低的成本构建个性化的AI代理、智能代码助手或多模态工具。
随着vLLM等主流推理框架的持续迭代,类似的底层优化会变得越来越普及。如果你手边正好有一张RTX 5090,不妨亲自尝试一下这个项目——或许下一个令人惊喜的AI应用,就会诞生在你的桌面电脑上。