找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2062

积分

0

好友

325

主题
发表于 昨天 18:31 | 查看: 0| 回复: 0

随着AI浪潮的袭来,笔者本人以及团队都及时调整了业务方向,转型为AI开发者和AI产品开发团队。日常工作中,我们常需对大模型注入业务场景依赖的私域知识,完成微调后部署推理,以支撑智能体或智能问答产品的逻辑流程。

相信有相同转型经历的开发者都会感同身受:转型之路必然伴随阵痛。好在对技术的热情与职业发展的理性分析,促使我们克服多重困难——包括大模型知识的学习积累、AI产品的需求定义与交付,以及最难的GPU资源协调与实验室建设。

为什么获取GPU资源如此困难?首先,没有卡就没有实践,没有卡就无法开展研究,更不用说设计产品原型。然而现实是:GPU价格高昂,公司通常仅分配一台公共GPU服务器供多个团队轮流使用。这带来两个关键问题:

1)GPU服务器需预约时段轮流使用,无法第一时间验证新想法与代码实现,导致产品迭代效率低下;
2)服务器软件环境常被随意变更配置与版本,每次使用前都要耗费时间恢复环境,实际用于生产的时间极少,还易引入因环境差异导致的Bug。

可见,正如传统应用开发需要CPU开发机,AI时代的开发者也需要自己的GPU开发机——这是可持续、稳定且高效产出的前提。那么,采购消费级GPU是否可行?答案是否定的:消费级GPU并非为大模型而生,仅几十GB显存难以流畅运行主流大模型及其开发框架。

经过长期实践验证,公用GPU服务器与消费级GPU均难以满足日常AI开发的算力需求。直到我发现了联想ThinkStation PGX——联想与NVIDIA联合推出的AIPC(桌面上的AI超级计算机),一款开发者可独占、能稳定运行200B~400B参数量大模型的AI开发机。

ThinkStation PGX迷你工作站正面特写,手持展示,尺寸标注为150mm×150mm×50.5mm

联想ThinkStation PGX——个人AI算力基础设施

ThinkStation PGX定位为GPU工作站,处于GPU服务器与GPU个人电脑之间,面向AI开发者提供本地大模型开发与测试平台,号称“全球迄今最小的AI超算”。

PGX的发布标志着AI算力正从大型机构向个人开发者或小型团队渗透。随着生态成熟,越来越多AI开发者将人手一台趁手的开发机,在本地直接开展模型开发、调试与部署——从此不必再申请GPU服务器时段,不必争抢资源;若需更改软件配置以满足各类需求,它就在那里,随时可动手。

ThinkStation PGX运行DGX仪表盘界面,显示系统内存18.20 GB / 128 GB可用、GPU利用率73%等实时监控数据

PGX不仅让AI开发者“随心所欲”,更重要的是保障研究与产出的持续演进。例如,当业务智能体团队要求通过微调注入特定私域知识数据集时,我们可立即选择合适模型分支在本地微调训练,再部署推理验证效果。若符合预期即上线;若上线后出问题,也可立即在本地复现与排查。

本地AI开发挑战示意图:云服务器指向笔记本电脑带红色叉号,下方标注“Developers can be forced to work on private or local cloud with models & workloads that don't run locally due to lack of local memory or missing software”

当在AI开发机上开发的模型,无需修改代码即可无缝迁移至生产环境,这正是CI/CD思想的产品迭代方式。换言之,当大模型可在个人开发机完成微调、推理与迭代,开发机角色也随之改变——它不再是终端,而是个人AI基础设施,作为桌面端与云端之间的桥梁,与生产环境AI基础设施具备可移植性。

显然,PGX的核心价值在于提供本地化的大模型运行环境,便于模型原型设计、微调与测试。对单兵作战或小团队开发者而言,这是革命性的生产力提升。

现代办公套装图:显示器、键盘、鼠标与ThinkStation PGX主机并置,屏幕显示编程/数据分析界面

在售后服务方面,联想作为国内TOP1专业工作站品牌优势显著:为PGX提供专属三年上门服务、保修与技术支持,对注重省事省力的用户极具吸引力;还可提供三年一次硬盘恢复、专享NV技术咨询等PRC增值服务。

虽然AI开发机相较GPU服务器已大幅亲民,但仍属高价值消费品,建议选择国内售后实力强的品牌。联想在全国拥有超1万名认证工程师、2300+专业服务站,100%覆盖1~6线城市,保证7×24小时在线支持,值得信赖。

硬件参数

PGX是一款基于Grace-Blackwell芯片架构的桌面级AI超级计算机,其核心是一颗NVIDIA GB10 Grace Blackwell SoC芯片,将Grace CPU与Blackwell GPU融合于一体。如下图所示,除GB10外,还配备128GB统一内存、ConnectX-7网卡、4TB SSD存储等服务器级硬件模块。

GB10 Superchip拆解视图:标注Blackwell GPU、Grace CPU、128GB LPDDR5X统一内存、4TB SSD、Wi-Fi/Bluetooth/USB接口及ConnectX-NVLink RDMA等组件

下图是一张硬件参数概览表,我们将逐一分析每个参数,理解“ThinkStation PGX专为AI开发者设计的桌面级AI超级计算机”的设计理念。

NVIDIA Grace Blackwell架构技术规格表:含GPU/CPU/Tensor Core/内存/存储/USB/以太网/Wi-Fi/蓝牙/音频/功耗/尺寸等中英文对照参数

Blackwell GPU

GB10 SoC芯片上的GPU模组采用Blackwell架构。如下图,从芯片原件排布可见左侧为GPU,采用台积电3nm工艺集成48个SM、约6144个CUDA core,以及第5代Tensor Core(张量核心)和第4代RT Core(光追核心)。

GB10芯片俯视图:绿色/青色/蓝色纹理电路,深灰色金属封装,右下角TECHPOWERUP水印

GB10的显著特点是支持FP4/FP6/FP8低精度计算,专为AI开发机应用场景而设计。特别是FP4精度,基于成熟的NVFP4大模型量化技术,结合稀疏性技术,可在一台ThinkStation PGX上提供惊人的1 PFLOP/s(1千万亿次每秒)AI算力峰值。

这意味着采用FP4精度处理大模型推理时,ThinkStation PGX可显著提升整体吞吐量,效率较FP8和FP16成倍提升——这是为了让AI开发机尽可能更快微调训练、更大吞吐推理而设计。

Grace ARM CPU

GB10的CPU模块采用精简指令集的ARM 10+10架构。

其中,ARM v9.2架构在保证高性能的同时兼具低功耗与小型化优势,使ThinkStation PGX可使用标准家用插座供电,无需额外专用充电设备,轻松置于桌面使用。

另外,10+10共计20个core:10个Cortex-X925 core(高性能核)负责高负载通用计算任务;10个Cortex-A725 core(高能效核)负责后台进程与I/O调度。10+10组合专为优化大模型训练数据加载、预处理与流程编排而设计,加速从数据清洗到模型调整的全流程。

GB10芯片架构图:S-DIE(含CPU/GPU/内存控制器)与G-DIE(Compute/Graphics L2)双模块结构,橙绿分区清晰

128GB 统一系统内存

ThinkStation PGX另一项专为AI开发机而设计的是128GB统一系统内存(UMA)技术,使CPU与GPU在保证访存寻址一致性的前提下共享128GB LPDDR5X内存,而非传统分离式主存与显存。

128GB UMA从根本上解决了消费级GPU仅24GB/48GB显存容量受限的关键痛点。这意味着训练与推理数据无需在CPU主存与GPU显存间拷贝,降低延迟;处理大模型时,也避免了传统GPU因显存不足反复交换主存的开销,提高效率。

此外,结合FP4精度可将更大模型塞入PGX。例如,扣除操作系统占用空间后,128GB中约100GB可供给GPU使用。使用FP4量化后,原本需200GB显存的200B大模型,现仅需约100GB即可部署,使桌面端运行超大规模模型成为可能。

容量之外的带宽层面,128GB UMA与CPU/GPU间访存总线宽256bit,带宽约273GB/s。如下图所示,GB10的CPU与GPU模块间采用最先进的NVLink-C2C互联技术,数据传输无需经过PCIe,而是Chip-2-Chip直连,总线带宽最高达141GB,是PCIe 5.0的5倍。

NVLink-C2C技术突破传统PCIe瓶颈,带来更快协同运算性能。这也是GBXX架构被称为SuperChip的原因。

综上,GB10 SuperChip、128GB UMA、FP4精度三者组合,使专为NVIDIA NVFP4优化的vLLM等AI框架可根据实际负载动态分配UMA内存资源,读写模型参数、KV Cache等数据;中间激活值也不再需在CPU主存与GPU显存间反复搬运,不仅降低内存拷贝时延,也显著简化大模型部署与调优复杂度。最终实现:一台ThinkStation PGX最大可承载200B规模大模型进行推理,或对70B规模大模型进行微调。

通常需在GPU服务器上协调2~4张卡才能实现的目标,如今有了PGX,我们可随时随地开展工作。

值得一提的是,128GB UMA对MoE(混合专家)模型适用性极强,例如Qwen3-235B-A22B等MoE模型——虽总参数庞大,但单次激活参数较少,与PGX大内存优势高度匹配。无需复杂显存优化操作,即可稳定运行,拓展硬件应用场景。

另外,273GB/s内存带宽确属偏低,是大规模推理的主要性能瓶颈。但PGX的128GB大内存确实为部署超大MoE模型提供了坚实支撑。可见PGX的价值在于容量而非速度,其性能虽受限于内存带宽,但综合效果远超消费级GPU个人电脑方案。

GB10芯片架构细节图:S-DIE与G-DIE双模块结构,橙色区块含CPU/Display Port/Memory Controller,绿色区块含Compute/Graphics L2

高性能的存算分离网络连接

ThinkStation PGX在一台小小设备上实现了GPU服务器级别的高性能存算分离网络连接,包括:

  • 1个10GbE的RJ-45万兆以太网接口:作为管理网络和存储网络,用于加载大模型权重数据及存储训练过程中的Checkpoint数据。  
  • 1张200Gbps的ConnectX-7智能网卡:双QSFP接口,作为RDMA高性能计算网络,用于连接2台ThinkStation PGX组成双机集群后进行NCCL集合通信,交换分布式训练或推理过程中的梯度数据。

通过CX7组成双机集群后,可实现256GB的UMA扩容,这种扩展能力为超大规模模型本地部署提供显存容量基础,可部署如Llama 3.1 405B和Qwen 3 235B此等量级大模型推理,无需担心内存溢出。

更进一步,通过Microick CRS 812 DDQ交换机,可将PGX集群扩展至6个或更多系统。

ThinkStation PGX双机堆叠办公场景:两台PGX主机与打开的笔记本电脑并置,屏幕显示Windows欢迎界面

PC 化设计

前文着重介绍了PGX在“GPU服务器化”方面的能力,接下来介绍其“PC化”设计。

首先是尺寸:PGX是一个巴掌大小的金属壳盒子,体积为150×150×50.5mm,重量仅1.2kg。整机紧凑式设计,金属外壳兼具质感与耐用性,办公桌面占用极小,充分体现NVIDIA旗舰级硬件工业设计水准,初见即为其精湛工艺惊叹。

其次是功耗:PGX满载功耗理论仅约240W,其中GB10 SoC芯片TDP约140W,其余100W留给网卡、SSD等组件。标配240W外置电源适配器,适用于任何办公桌电源插槽,无需额外供电设备。

然后是散热:PGX散热系统讲究,采用静音设计,运行噪音控制优秀——空闲时约13dB,满载时约35dB,非常安静,完全适配办公环境。

再来是外设接口:PGX配备4个USB Type-C,其中一个用于供电输入;1个HDMI 2.1a显示器接口,支持多声道音频输出与最高8K显示;无线方面集成Wi-Fi 7与BT 5.3模块,覆盖无线办公全场景,无需特殊转换器。

ThinkStation PGX背面接口图:20-V供电口、USB-C、USB-A、HDMI、网线接口及X-7扩展槽

可见,以上均为完全标准的“PC化”设计,使我可经常背着PGX上下班。实际使用中,只需插上电源与视频转接器,即可延续办公室或家中的工作进展。

最后不得不提的是PGX采用1TB或4TB NVMe M.2 SSD存储:一方面避免模型训练I/O瓶颈,另一方面支持自加密(Self-Encrypting)功能,为大模型权重数据与代码资产安全提供全面保护,让我相对放心地带PGX外出交流与学习。

ThinkStation PGX与ThinkPad T14并置办公桌:T14屏幕显示安装向导,PGX旁有咖啡杯与绿植

软件堆栈

前文从硬件参数设计层面分析了为何称PGX为“专为AI开发者设计的桌面级AI超级计算机”,接下来从软件堆栈设计说明:PGX不仅是AI开发机,更是个人级AI基础设施。

AI开发机与个人级AI基础设施的核心区别在于是否真正融入生产环境CI/CD流程——这取决于个人环境与生产环境是否具有一致性软件堆栈,确保代码与模型参数能否无缝流转。

ThinkStation PGX在软件方面尽量做到开箱即用:初次配置只需联网更新并简单设置用户信息,即可获得完整NVIDIA AI开发环境。后续通过NVIDIA Dashboard工具等,可方便维护系统状态并获取最新优化。

PGX已预先安装与GPU服务器一致的NVIDIA AI软件栈,包括经优化的GPU驱动、CUDA库及NVIDIA提供的各种AI工具与框架支持。如下图所示,开发者可直接访问NVIDIA NIM、NVIDIA Blueprint和AI Workbench平台,拉取NVIDIA容器镜像(含经测试的PyTorch/TensorFlow + CUDA运行环境),在PGX上直接运行。

DGX Spark Software Stack架构图:Hardware → DGX OS → CUDA/CUDA-X → SDKs/Frameworks → Workflows/Models/Tools五层结构

并且也可在PGX上立即使用PyTorch、TensorFlow、TensorRT-LLM等主流框架,以及Jupyter Notebook、Ollama等主流开发工具。开发者在PGX上开发调试的代码与容器,可无缝移植至企业级GPU服务器或NGC(NVIDIA GPU Cloud)云服务运行。

PGX实际上就是生产环境CI/CD流程中的一个开发环境,在本地重现了生产级GPU服务器的架构与软硬件环境,让开发者“所见即所得”地进行开发与调试。日常工作中,我们先用单机PGX验证,再小规模集群测试,最后上线至生产环境GPU服务器集群。

桌面操作系统

首先是操作系统。区别于纯命令行的GPU服务器,PGX OS是基于Ubuntu 24.04 LTS定制发行的桌面操作系统。

对于模型可视化、性能优化、图形图像开发等工作,开发者常需使用Nsight Systems等GUI工具调试GPU程序,纯命令行显然无法满足所有需求。因此PGX OS桌面操作系统专为让开发者在一台电脑上完成所有工作而设计。

此外,为让习惯macOS或Windows的开发者获得良好体验,PGX也预先安装并启用了xRDP图形远程桌面服务,可建立稳定顺畅的远程GUI连接,在自己习惯的笔记本上访问PGX桌面环境。

DGX Dashboard界面截图:显示系统内存7.19 GB可用、GPU利用率为5%,右侧为CPU各核占用率图表

启动操作系统后,我们需要做基础软件环境检查:

  1. 查看Grace CPU信息:

终端输出:`lscpu`命令结果,显示Architecture: aarch64, CPU mode: 64-bit, Model name: Cortex-A53, 8 cores

  1. 查看128GB UMA内存容量:freenvidia-smi看见的内存容量信息一致,因为是UMA架构。

终端输出:`free -h`命令结果,Mem: 119Gi total, 5.4Gi used, 106Gi free, 9.1Gi buff/cache, 114Gi available

  1. 查看SSD硬盘容量:

终端输出:`lsblk | grep nvme`命令结果,显示nvme0n1 931.5G disk,含/boot/efi与/根分区

  1. 查看GPU信息:nvidia-smi的Memory Usage一栏会显示"Not Supported",这是正常情况,因UMA架构下GPU无独立显存。

终端输出:`nvidia-smi`命令结果,显示GPU Name: NVIDIA GB10, Temp: 37C, Pwr: 5W, Memory-Usage: Not Supported

  1. 查看预安装的Docker版本:

终端输出:`docker -v`命令结果,Docker version 28.5.1, build e180ab8

  1. 查看预安装的CUDA工具链版本:

终端输出:`nvcc -V`命令结果,Cuda compilation tools, release 13.0, V13.0.88

NVIDIA Container Runtime & Toolkit

若直接运行Docker容器,容器内将看不见GPU设备,因此需安装NVIDIA Container Runtime和Toolkit以支持docker run --gpus选项。NVIDIA Container Runtime运行于HostOS中,是容器内无缝使用GPU的关键技术。

NVIDIA Container Toolkit则运行于Containers内部,提供必要组件,为容器化应用动态配置并接入GPU设备与CUDA库,具有以下优势:

  1. 容器内无缝访问GPU设备;  
  2. 自动管理GPU驱动程序与CUDA库;  
  3. 支持自动配置Multi-GPU;  
  4. 与Docker等主流容器编排平台兼容。

DGX软件栈立体分层图:Hardware → Host OS → Docker Engine → NVIDIA Container Runtime → CONTAINERIZED APPLICATION

Docker与NVIDIA GPU容器运行时架构流程图:docker → dockerd → nvidia-container-runtime (shim) → runC → nvidia-container-toolkit → libnvidia-container → NVIDIA driver

在PGX系统中已预先完成NVIDIA Container Runtime & Toolkit的安装与配置,包括:与Docker集成、配置GPU设备访问、配置CUDA库等。因此PGX操作系统可开箱即用,立即开始处理AI工作负载、CUDA应用程序及其他GPU加速软件。

验证是否可正常调用GPU设备与CUDA库:

  1. 启动容器,使用--gpus all参数让容器直接使用主机GPU。  
  2. 在容器内输入nvidia-sminvcc --version等命令,若均能获取正常输出,即说明Docker容器内GPU和CUDA环境已就绪。
$ docker run -rm -it --gpus=all \
-v "$PWD":/workspace \
-w /workspace \
nvcr.io/nvidia/pytorch:25.08-py3

终端输出:`nvidia-smi`与`nvcc --version`在容器内执行成功,显示GPU Name: NVIDIA GB10, CUDA Version: 13.0

默认情况下,PGX OS执行docker指令需sudo权限。为方便,可将pgx用户添加到docker用户组,即可无需sudo直接运行。

终端命令:`sudo usermod -aG docker $USER` 与 `newgrp docker`

值得注意的是,PGX CPU是ARM64平台,因此自行安装软件或启动容器时,需选择对应arm64版本。

例如:直接docker pull pytorch/pytorch:latest默认拉取x86_64镜像,在ARM CPU上运行会报非法指令。因此应使用NVIDIA NGC提供的镜像,或Docker Hub上标记支持arm64平台的镜像。

NVIDIA官方提供了可直接应用于PGX的容器镜像,涵盖CUDA 13、PyTorch等。拉取nvcr.io/nvidia/cuda:13.0.1-devel-ubuntu24.04作为基础镜像,再安装AI框架即可保证兼容。

https://catalog.ngc.nvidia.com/

NVIDIA NGC Catalog页面截图:PyTorch容器详情,含版本25.12-py3、签名状态、获取按钮及镜像路径

NVIDIA Dashboard

NVIDIA Dashboard是NVIDIA提供的软件管理工具,用于检查软件更新、安装补丁、升级GPU驱动、NIC固件等。NVIDIA会定期(每半年左右)发布OS重要更新及不定期安全补丁,为获更好稳定性与性能,建议定期检查系统更新。通过Dashboard可方便查看并一键安装可用更新。

强烈建议优先使用Dashboard执行系统更新,因NVIDIA针对PGX软件栈进行了特殊更新验证与优化,使用Dashboard可避免不兼容更新导致的问题。

另外,NVIDIA Sync桌面程序能实时显示PGX设备资源利用率,并集成命令行终端,为用户提供统一界面管理SSH访问及在PGX上启动开发工具。

DGX Dashboard界面:系统内存7.19 GB可用,GPU利用率为5%,右侧为CPU各核占用率图表

LLM 推理实践

NVFP4 量化技术

随着大模型参数量增长,显存优化技术之一的低精度量化技术飞速发展。行业趋势是大模型正朝低位宽浮点数演进(FP32→FP16→FP8→FP4)。业内长期测试发现,不同低精度格式效果排序为FP8 > FP4 > INT8 > INT4。因FP4兼具体积与精度综合优势,已成为大模型量化技术主流趋势。

NVIDIA历代GPU架构张量核心技术对比表:Volta/Ampere/Hopper/Blackwell四代架构的Tensor Core特性、支持精度与计算创新

PGX的Blackwell GPU支持NVIDIA专为推理优化的NVFP4(4-bit浮点)格式,结合FP4量化技术,可实现接近FP8的精度(仅降低1%)。NVFP4量化技术可将模型权重压缩至原始大小的约3~3.5倍(相比FP16),或1.8倍(相比FP8),同时提升吞吐量。从而在不牺牲准确性的前提下,放下更大参数规模模型。在NVFP4加持下,一台PGX才得以实现最大承载200B规模大模型进行推理。

FP8 vs NVFP4基准测试图:MMLU Pro/MMLU/Code/Math等智能领域准确率对比,NVFP4略优

并且因FP4数据占用更小,系统性能亦得提升。因此,应用NVFP4量化技术后的PGX可在不牺牲模型精度前提下实现:

  1. 更高的推理吞吐  
  2. 更低的响应延迟  
  3. 更快的Token生成速度  
  4. 更顺畅的Prompt处理能力  

而高效的Prompt处理能力有助于提升token响应速度,加快端到端吞吐量,改善用户体验。下表展示了PGX在NVFP4 + TensorRT-LLM / llama.cpp环境下多款大模型的测试表现。

推理性能对比表:Qwen3 14B/GPT-OSS-20B/Llama 3.1 8B等模型的Prompt处理与token生成吞吐量

  • ISL(输入序列长度):输入提示词数量,即Prefill tokens。  
  • OSL(输出序列长度):模型响应过程中生成token数量,即Decode tokens。

本文推理实践中采用NVIDIA官方发布的NVFP4量化模型nvidia/Qwen3-30B-A3B-NVFP4,总参数量30B、单次激活参数量3B的MoE模型,可最大化发挥PGX内存与算力优势,是理想应用场景。

TensorRT-LLM + Qwen3-30B-A3B-NVFP4

采用NVIDIA官方推荐的TensorRT-LLM框架搭配NVFP4量化模型进行测试。

https://huggingface.co/nvidia/Qwen3-30B-A3B-NVFP4

HF模型页面截图:Qwen3-30B-A3B-NVFP4模型文件下载链接、SHA256校验码及技术细节

HF模型页面截图:Qwen3-30B-A3B-NVFP4模型文件列表及大文件指针详情

启动命令如下:

$ docker run -d \
--name trtllm-serve \
-v "/data/llm-model/nvidia/Qwen3-30B-A3B-NVFP4:/workspace/model" \
--gpus=all \
--ip=host \
--network host \
nvcr.io/nvidia/tensorrt-llm/release:spark-single-gpu-dev \
trtllm-serve /workspace/model \
--backend pytorch \
--max_batch_size 10 \
--host 0.0.0.0 \
--port 8000

Docker启动命令截图:含挂载路径、GPU参数、网络模式及trtllm-server启动参数

终端输出:`trtllm-server`启动成功,INFO: Application startup complete,服务运行于http://0.0.0.0:8000

注意:官方推荐的--backend pytorch参数会让模型跳过TensorRT的CUDA Graph优化与Kernel算子融合功能,仅以PyTorch原生模式运行,未能发挥TensorRT-LLM核心加速优势。

curl请求与JSON响应截图:向localhost:8000/v1/chat/completions发送量子计算影响提问,返回详细回答

vLLM + Qwen3-30B-A3B-NVFP4

在v0.12.0版本以前,使用vLLM + Qwen3-30B-A3B-NVFP4组合在执行CUTLASS FP4 MoE矩阵乘法操作时会遇见RuntimeError: Failed to initialize GEMM错误。这是因为旧版本vLLM MoE模型对GB10 SM12.1架构NVFP4格式适配不成熟,部分关键Kernel核函数尚未完成。

YAML配置文件截图:vllm-v10_Qwen3-30B-A3B-NVFP4.yaml,含image、ports、volumes、command等字段

终端日志截图:`docker logs`输出GEMM初始化失败错误

直到v0.12.0版本,vLLM正式支持NVFP4,标志着FP4格式逐渐被主流认可。

技术文档截图:NVFP4 MoE CUTLASS支持、TRTLLM内核、CuteDSL调度等优化细节

NGC已提供vLLM v0.12.0版本镜像,可直接使用。

YAML配置文件截图:vllm-v12_Qwen3-30B-A3B-NVFP4.yaml,指定v0.12.1.post1-py3镜像

Docker Compose命令截图:`docker compose -p v12 -f ... up -d`及GPU设备预留配置

若需使用自定义镜像,可手动编译v12版本。

debug YAML配置截图:vllm_v10-Qwen3-30B-A3B-NVFP4-debug.yaml,含sleep infinity command

终端命令截图:进入容器、git clone vLLM、checkout v0.12.0、编辑requirements/common.txt

构建脚本截图:清理旧文件、设置WORKSPACE、use_existing_torch.py、pip install、setup.py develop

启动vLLM:

$ python -m vllm.entrypoints.openai.api_server \
--model /model \
--served-model-name Qwen3-30B \
--trust-remote-code \
--dtype auto \
--kv-cache-memory 34608345600

终端日志截图:vLLM API server启动成功,启用flashinfer-cutlass与Cutlass for NVFP4 GEMM

vLLM + Qwen3-30B-A3B-AWQ

若使用较旧vLLM版本,推荐采用AWQ量化的Qwen3-30B-A3B-AWQ模型。

AWQ作为成熟量化技术,拥有完善社区支持与大量实践验证。vLLM框架对AWQ适配经多轮优化,具备稳定高效运行链路。

YAML配置文件截图:vllm_Qwen3-30B-A3B-AWQ.yaml,含image、container_name、ports、volumes等

Docker Compose命令截图:`docker compose -p awq -f ... up -d`及`docker ps`容器状态

curl请求与JSON响应截图:向localhost:8000/v1/chat/completions发送量子计算影响提问,返回详细回答

API Server日志截图:Avg prompt throughput: 3.0 tokens/s, Avg generation throughput: 20.0 tokens/s

性能压测对比

使用第三方压测工具:

https://evalscope.readthedocs.io/zh-cn/v0.7.1/user_guides/stress_test/quick_start.html

pip安装evalscope命令截图:`pip install evalscope[perf] -U`

压测参数设置:

  • url:请求URL  
  • parallel:并行请求数量  
  • model:使用的模型名称  
  • number:请求数量  
  • api:使用的API服务类型  
  • dataset:数据集名称  
  • stream:是否启用流式处理  
$ evalscope perf \
--url "http://127.0.0.1:8000/v1/chat/completions" \
--parallel 15 \
--model Qwen3-30B \
--number 100 \
--api openai \
--dataset openga \
--stream

evalscope压测命令截图:含URL、parallel、model、number、api、dataset、stream参数

对比测试结果:

  • TensorRT-LLM + Qwen3-30B-A3B-NVFP4  
  • vLLM + Qwen3-30B-A3B-NVFP4  
  • vLLM + Qwen3-30B-A3B-AWQ  

Benchmarking summary表格:Time taken、Number of concurrency、Total requests、Succeed requests等指标

性能指标表格:Output token throughput、Total token throughput、Request throughput、Average latency等

虚线分割图

虚线分割图

DGX Dashboard界面:系统内存62.50 GB可用,GPU利用率为94%,右侧为CPU/内存/网络实时监控

  • vLLM + Qwen3-30B-A3B-NVFP4  

Benchmarking summary表格:Time taken、concurrency、requests、throughput、latency等

性能指标表格:Average time per output token、Average inter-token latency、Input/Output tokens等

百分位性能分析表格:TTFT、ITL、TPOT、Latency、Input/Output tokens等

DGX Dashboard界面:系统内存58.75 GB可用,GPU利用率为94%,右侧为CPU/内存/网络/磁盘实时监控

  • vLLM + Qwen3-30B-A3B-AWQ  

Benchmarking summary表格:Time taken、concurrency、requests、throughput、latency等

性能指标表格:Average inter-token latency、Input/Output tokens等

百分位性能分析表格:TTFT、Latency、Output tok/s、TPOT等

DGX Dashboard界面:系统内存63.57 GB可用,GPU利用率为94%,右侧为CPU/内存/网络/磁盘实时监控

  • Latency(延迟):整体响应时间。  
  • Throughput(吞吐量):每秒处理的请求数和token数。  
  • TTFT(Time to First Token):首token时间,用户感知体验。  
  • ITL(Inter-Token Latency):token间延迟,生成流畅度的关键指标。  
  • TPOT(Time per Output Token):每token输出时间,生成效率的直接体现。  
  • E2EL(End-to-End Latency):端到端延迟,完整请求的时间开销。

对比测试分析:

总体性能对比概览表:TensorRT-LLM/NVFP4、vLLM/NVFP4、vLLM/AWQ三者在各项指标最优表现

百分位性能分析(P90关键指标):TTFT/Latency/输出tok/s/TPOT四指标最优结果对比

量化方案对比(vLLM内部):NVFP4与AWQ在总测试时间、输出tok/s、TTFT、TPOT、平均输出token差异

可见,软件生态成熟度通常滞后于硬件迭代。GB10 SM12.1属于新型架构,TensorRT-LLM框架对其优化仍处初期阶段,部分性能优化实现无法启用,整体软件栈尚未完成与新硬件深度适配。

相较于AWQ量化技术,虽然NVFP4具备理论技术优势,但NVFP4针对MoE模型推理所需的Fused MoE Kernel尚未完成全场景适配。从报错日志可见,FlashInfer kernels缺失导致TensorRT-LLM即便能运行模型,也无法调用最优Kernel实现,限制性能发挥。

另外,NVIDIA官方目前尚未针对batch size、KV cache等vLLM参数配置给出最佳实践方案。可见NVFP4软件生态仍处建设阶段,尚未形成成熟应用闭环。不过好在NVIDIA已明确NVFP4全面优化将很快上线。

性能剖析工具

在模型开发日常工作中离不开性能剖析,尤其是Nsight System和Nsight Compute这两款NVIDIA性能剖析工具的使用,这些工具均已被预先安装在PGX上,可通过GUI桌面方便使用。

例如,上述性能测试对比可知,在同等条件下NVIDIA官方提供的TensorRT-LLM + Qwen3-30B-A3B-NVFP4方案的TTFT较高,此时需使用性能剖析工具调查。这里主要介绍如何在PGX上使用nsys等工具的流程。

  • 方式1:在容器内部抓取性能剖析数据。注意在容器内抓取GPU Metrics需修改推理进程启动指令,添加nsys launch指令,并为容器启用特权模式,配置GPU可访问模式。
# 使用 nsys launch 模式:
$ docker run -d \
--name trtllm-serve-nsys \
-v "/data/llm-model/nvidia/Qwen3-30B-A3B-NVFP4:/workspace/model" \
--gpus=all \
--ipc=host \
--network host \
--restart unless-stopped \
--privileged \
nvcr.io/nvidia/tensorrt-llm/release:spark-single-gpu-dev \
nsys launch --trace=cuda,osrt,nvtx,cublas --session-new=my-session --show-output=true trtllm-serve /workspace/model \
--backend pytorch \
--max_batch_size 10 \
--host 0.0.0.0 \
--port 8000

# 启动 nsys 抓取
$ nsys start --backtrace=none --sample=system-wide --gpu-metrics-device=all --gpu-metrics-frequency=100000 --session=my-session --output=trtllm02.nsys.rep

Docker启动nsys命令截图:含--gpus、--ipc、--network、--privileged及nsys launch参数

打流与停止抓取命令截图:`evalscope perf`与`nsys stop --session=my-session`

  • 方式2:在容器外部抓取。注意因容器外部无法指定容器内部具体进程,故抓不了--trace指向的CUDA HW数据,只能抓取GPU Metrics数据。
sudo nsys profile --sample=system-wide --gpu-metrics-device=all --gpu-metrics-frequency=100000 --duration=10 -o trtllm01

nsys profile命令截图:含--sample、--gpu-metrics-device、--duration、-o参数

nsys性能剖析数据抓取完成后,可直接在PGX GUI桌面上查看。如下图,可用可视化方式观测TensorRT-LLM的Kernel核函数执行Timeline图,对理解其执行流程至关重要。这些工具在PGX上均已预装,非常方便。

Nsight性能分析界面截图:CPU与CUDA HW资源使用图,显示cutlass::gemm::kernel::G等Kernel调用占比

LLM 微调实践

微调是指在已训练好的大型预训练模型基础上,进一步训练该模型以适应特定任务或领域数据。可在特定任务上取得更好性能,因模型在微调中重点学习与任务相关特性;亦可在情感分析、问答系统等多领域快速适应;相比从零训练,所需数据与计算资源显著减少。

在实际大模型应用场景中,高效微调主要用于以下四个方面:

  1. 改变对话风格:根据特定需求调整模型对话风格。如客服、虚拟助理等场景,通过微调少量参数(如对话生成策略、情感表达),使模型适应不同语气、礼貌程度或回答方式。  
  2. 注入私域知识:将外部知识或领域特定信息快速集成到预训练模型中。如法律、医疗、IT等专业领域,通过少量标注数据微调,帮助模型理解术语、规则与知识,提升专业问答能力。  
  3. 提升推理能力:在处理复杂推理任务时,微调使模型更高效理解长文本、推理隐含信息或提取逻辑关系,从而在多轮推理中提供更准确答案。  
  4. 支撑Agent需求:通过Agent使模型能与其他系统交互、调用外部API执行任务。通过针对性微调,模型可学会更精准Function Calling策略、参数解析与操作指令,支撑Agent能力。

现在绝大多数开源模型开源时会公布两个版本:Base模型(仅预训练,未指令微调)与微调模型(在Base基础上进一步全量指令微调后的对话模型)。

微调技术原理

广义上,微调可分为2种主要方式:全量微调和高效微调。选择哪种方法,取决于开发者希望对原始模型进行多大程度调整。

参数高效微调:  

  • 工作原理:仅更新模型一小部分,以更快、更低代价完成训练。是在不大幅改变模型前提下提升能力的高效方式。  
  • 适用场景:几乎适用于所有传统需完整微调的场景,包括引入领域知识、提升代码准确性、使模型适配法律或科学任务、改进推理能力,或对语气和行为进行对齐。  
  • 要求:小到中等规模数据集(100~1000组示例提示词对)。

完整微调:  

  • 工作原理:更新模型所有参数,适用于训练模型遵循特定格式或风格。  
  • 适用场景:高级应用场景,如构建AI智能体和聊天机器人,需围绕特定主题提供帮助、遵循既定约束规则并以特定方式响应。  
  • 要求:大规模数据集(1000+组示例提示词对)。

LLM微调是对GPU显存和计算要求极高的工作负载,每个训练步骤均需数十亿次量级矩阵乘法更新模型权重。即使是Mistral 7B这样的小型LLM进行全面微调,也可能需高达100GB内存。因此,微调前需考虑各种微调方法的GPU显存需求。

显然,相较于LoRA和QLoRA高效微调,完整微调对内存与吞吐量要求更高。尽管完全微调可对模型能力进行深度改造,但需带入全部参数训练,消耗大量算力且有技术门槛。相比之下,在绝大多数场景中,若只想提升模型某具体领域能力,高效微调更合适。

由于微调需消耗大量显存,参数规模超30B的大模型往往无法在32GB消费级GPU上运行,却可轻松在拥有128GB UMA的PGX上随时进行。下表展示了在PGX上对Llama系列模型进行微调的性能表现。

  • Llama 3.2 3B完全微调:每秒82739.2 tokens处理速度。  
  • Llama 3.1 8B LoRA微调:每秒53657.6 tokens处理速度。  
  • Llama 3.3 70B QLoRA微调:每秒5079.4 tokens处理速度。

Llama模型微调配置表:含模型名称、方法、后端、设置参数及峰tokens/秒性能指标

LoRA

LoRA(Low-Rank Adaptation,低秩适应)旨在通过引入低秩矩阵减少微调时需调整的参数数量,从而显著降低显存与计算资源消耗。具体来说,LoRA微调并不直接调整原始模型所有参数,而是通过在某些层中插入低秩适配器(Adapter)层来训练低秩矩阵。

LoRA的原理
在完全微调中,会修改模型所有权重;而在LoRA中,只有某些低秩矩阵(适配器)会被训练和调整。这意味着原始模型参数保持不变,仅通过少量新参数调整模型输出。

低秩矩阵引入可在显存与计算能力有限的情况下,依然有效对大型预训练模型微调,使LoRA成为显存较小设备的理想选择。

LoRA的优势:  

  1. 显存优化:只需调整少量参数(适配器),显著减少显存需求,适合显存有限的GPU。  
  2. 计算效率:微调过程计算负担更轻,因减少了需调整的参数量。  
  3. 灵活性:可与现有预训练模型轻松结合,适用于文本生成、分类、问答等多种任务。
QLoRA

QLoRA(Quantized Low-Rank Adaptation)是LoRA的扩展版本,结合了LoRA低秩适配器技术与量化技术。在LoRA基础上进一步优化计算效率与显存需求,尤其适用于极端显存受限环境。

QLoRA的原理
与LoRA不同,QLoRA会将插入的低秩适配器层的部分权重进行量化,通常为FP4、INT4或INT8等低精度格式,在保持性能同时显著降低模型存储与计算需求。

可见,QLoRA涉及量化(quantization)技术,将模型一部分权重参数存储在较低精度数值格式中,以此减少内存使用与计算量,同时结合LoRA低秩调整,使适应过程更高效。

QLoRA的优势:  

  1. 在显存非常有限的情况下仍能进行微调。  
  2. 可处理更大规模模型。  
  3. 适合边缘设备和需低延迟推理的场景。
LLaMA Factory + Qwen3-7B + LoRA

安装部署

  • 容器安装:

LlamaFactory Docker构建与运行命令截图:`git clone`、`docker build`、`docker run`、`docker exec`

  • 编译安装:

终端命令截图:`cd LlamaFactory`、`git clone`、`docker run`、`mkdir`、`cat > ~/.pip/pip.conf`

pip安装命令截图:卸载torch等包、重装torch torchvision torchaudio、升级nvidia-cublas/cudnn

  • 测试:

终端命令截图:`llamafactory-cli train -h`、`python`导入torch、`torch.cuda.current_device()`等

  • 测试推理:

test-inf.py代码截图:含torch、AutoTokenizer、AutoModelForCausalLM导入及4bit量化配置

Python代码截图:加载Meta-Llama-3-8B-Instruct模型与Tokenizer,配置bnb_config

Python代码截图:验证GPU加载、print输出模型信息、messages对话逻辑、generate参数配置

终端输出截图:模型加载日志、警告信息、Captain Chatbot海盗风格回复

  • 测试WebUI:
$ CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat \
--model_name_or_path /workspace/Meta-Llama-3-8B-Instruct \
--template llama3
* Running on local URL: http://0.0.0.0:7860
$ telnet localhost 7860

终端命令截图:`llamafactory-cli webchat`启动命令及telnet连接7860端口

网页界面截图:Chatbot欢迎语“你好!欢迎来到我的世界!我是你的AI朋友...”

  • model_name_or_path:huggingface或modelscope的模型名称,如meta-llama/Meta-Llama-3-8B-Instruct;或本地下载的绝对路径。  
  • template:模型问答所用prompt模板,不同模型需各自模板,否则会出现重复生成等异常。如Meta-Llama-3-8B的template即llama3

LLaMA Factory WebUI界面截图:语言选择zh、模型名称输入框、模型路径、微调方法lora等配置

魔搭社区集成了相当丰富的中文数据集,有很多分类可选。

https://www.modelscope.cn/datasets

ModelScope数据集页面截图:RoboCOIN、OpenDataLab/AICC、Open-Bee/Honey-Data-15M等数据集列表

找一个角色扮演的数据集来微调(方便查看效果)。

https://www.modelscope.cn/datasets/kmno4zx/huanhuan-chat

Chat-嬛嬛模型页面截图:基于《甄嬛传》剧本台词LoRA微调的聊天语言模型

在数据预览这里查看详细数据。

数据集预览截图:instruction/output/input三列,含“是禁神的词?”、“沈大美人差矣”等中文对话

注意,llama-factory目前只支持两种格式的数据集:Alpaca和Sharegpt格式。

https://github.com/hiyouga/LlamaFactory/tree/v0.9.1/data

Alpaca格式说明文档截图:instruction/input/output/system/history字段含义及JSON样例

Sharegpt格式说明文档截图:conversations数组结构,含human/gpt/observation/function角色对象

切换到数据集文件这边,打开huanhuan.json文件,看到它其实就是Alpaca格式的数据集,仅下载这一个文件即可。

huanhuan.json文件内容截图:含instruction/output字段,如“小姐,别的男女都在求中选...”

在llama-factory添加数据集,不仅要把数据文件放到data目录下,还需在配置文件dataset_infos.json里添加一条该数据集记录。这样新数据集才能被识别。

dataset_infos.json文件截图:含"huanhuan": {"file_name": "huanhuan.json"}等键值对

这里保存后,webui那边会实时更新,无需重启。

WebUI模型配置界面截图:“模型路径”下拉菜单含huanhuan、identity、alpaca_en_demo等选项

执行微调

微调Qwen3-1.7B-Base基础大模型,方法选用LoRA。

  • Base基础预训练模型。  
  • 没有经过指令微调。  
  • 适合继续预训练或指令微调。  
  • Base通常情况下输出质量不如Instruct版本。

模型配置界面截图:语言zh、模型名称Qwen3-1.7B-Base、模型路径Qwen/Qwen3-1.7B-Base等

使用huanhuan数据集,先训练1轮看看效果,若不理想再多训几轮。因数据集多为短问答,可将截断长度设小一点,为1024(默认2048)。梯度累计设为4。注意,计算类型选BF16,暂不支持FP4。

训练配置界面截图:数据集huanhuan、计算类型bf16、梯度累积步数4、预热步数4等

继续设置LoRA微调参数:

  • LoRA秩:可看作学习广度,越大可能学得越多,微调效果可能越好,但非越大越好。太大易过拟合(书呆子,照本宣科,不知变通),此处设为8。  
  • LoRA缩放系数:可看作学习强度,越大效果可能越好;复杂场景数据集可设更大,简单场景可稍小。此处设为256。

LoRA参数设置界面截图:LoRA秩8、LoRA缩放系数256、LoRA随机丢弃0等滑块

预览训练指令并开始训练。

预设命令界面截图:llamafactory-cli train命令含--stage sft、--model_name_or_path等参数

llamafactory-cli train命令截图:含--stage sft、--finetuning_type lora、--dataset huanhuan等参数

训练参数配置截图:--packing False、--bf16 True、--lora_rank 8、--lora_alpha 256等

  • stage:指示当前训练阶段,枚举值sftptrmppo等,此处为有监督指令微调,故为sft。  
  • do_train:是否为训练模式。  
  • dataset:使用的数据集。  
  • dataset_dir:数据集所在目录,此处为data。  
  • finetuning_type:微调训练类型,枚举值lorafullfreeze等,此处用lora。  
  • output_dir:训练Checkpoint保存位置。  
  • cutoff_len:训练数据集长度截断。  
  • per_device_train_batch_size:每个设备上的batch size,最小为1,若GPU显存够大可适当增加。  
  • bf16:训练数据精度格式。  
  • max_samples:每个数据集采样多少数据。  
  • val_size:随机抽取多少比例数据作为验证集。  
  • logging_steps:定时输出训练日志,含当前loss、训练进度等。  
  • adapter_name_or_path:LoRA适配器路径。  
  • 开始后,会启动一个新的训练进程。

ps -ef命令截图:显示llamafactory-cli webui与train进程PID及CMD

若本地未找到模型,会先自动下载模型:

模型下载日志截图:Process rank: 0, world size: 1, device: cuda:0, compute dtype: torch.bfloat16

开始训练后可查看进度条和损失值曲线。

训练界面截图:显示Running 215/467、tokenization_utils_base.py加载文件日志、DGX Dashboard监控

看到类似“训练完毕”即代表微调成功。

训练完成提示截图:“训练完毕。”及loss、learning_rate、epoch等日志

损失函数折线图:original与smoothed两条曲线,横轴step,纵轴loss

微调成功后,我们得到一个Checkpoint记录,下拉可选择刚刚微调好的模型。

模型配置界面截图:“检查点路径”字段高亮显示'train_2026-01-02-19-59-30'

Checkpoint在后台存储位置是saves/Qwen3-1.7B-Base/lora/

  • adapter开头的是LoRA适配器结果,后续用于模型推理融合。  
  • training_losstrainer_log等记录训练过程指标。  
  • 其他是训练时各种参数备份。

终端文件列表截图:saves/Qwen3-1.7B-Base/lora/train_2026-01-02-06-01-20/目录下checkpoint-*子目录

把窗口切换到chat,可点击加载模型。

模型配置界面截图:“加载模型”与“卸载模型”按钮,当前标签为‘Chat’

加载好后即可在输入框发送问题,测试微调模型效果。

终端日志截图:loading weights file /root/.cache/modelscope/hub/models/Qwen/Qwen3-1__7B-Base/model.safetensors

对LoRA微调模型进行推理,需应用动态合并LoRA适配器的推理技术。需通过finetuning_type参数告知使用了LoRA训练,再将LoRA模型位置通过adapter_name_or_path参数传入。

llamafactory-cli train命令截图:--finetuning_type lora及--adapter_name_or_path saves/Qwen3-1.7B-Base/loras/train_2026-01-02-06-01-20

但渲染只训练了一次的效果很差。

聊天界面截图:左侧多个重复气泡“你好。番assistant”

若想切换回微调前模型,只需先卸载模型,选择想要的Checkpoint,再加载模型即可。若想重新微调,需修改红框中两个值。

训练界面截图:输出目录、配置路径、设备数量、DeepSpeed stage等字段及损失曲线图

在经过3个Epoch训练后,效果越来越好。

聊天界面截图:泰文与中文混合对话气泡,含“皇上万福金安。臣妾甄嬛...”

损失函数折线图:original与smoothed曲线,横轴step,纵轴loss,平滑后曲线更稳定

批量推理和训练效果评估

上文人工交互测试并不严谨,通常需自动化批量测试,如使用BLEU和ROUGE等常用文本生成指标评估。

Evaluate & Predict界面截图:数据路径data、数据集huanhuan、截断长度1024、批处理大小4等

与训练脚本主要参数区别如下3个:

  • do_predict:现为预测模式。  
  • predict_with_generate:现用于生成文本。  
  • max_samples:每个数据集采样多少用于预测对比。

llamafactory-cli train命令截图:--stage sft、--do_predict True、--predict_with_generate True等

完成后查看微调质量评估结果,下面是训练效果评估指标。

质量类指标:BLEU-4 + ROUGE-1/2/L,衡量模型生成文本好坏、与标准答案匹配度、内容质量优劣。

BLEU-4:一种常用机器翻译质量评估指标。BLEU-4表示四元语法BLEU分数,衡量模型生成文本与参考文本间n-gram匹配程度(n=4)。值越高表示生成文本与参考文本越相似,最大值为100%。如下,BLEU-4=0.8539属高分,说明模型生成文本与标准答案语义贴合度极高、核心信息无遗漏、表达逻辑一致,对8B量级开源大模型而言属优秀水平。

predict_rouge-1:一种用于评估自动摘要和文本生成模型性能的指标。ROUGE-1表示一元ROUGE分数,衡量模型生成文本与参考文本间单个词序列匹配程度,即词汇层面匹配度,看生成文本是否用到标准答案里的核心词。值越高表示生成文本与参考文本越相似,最大值为100。如下,rouge-1=10.37属高分,模型能精准捕捉标准答案里的核心关键词,生成内容不会偏离主题,是优质模型核心特征。

predict_rouge-2:ROUGE-2表示二元ROUGE分数,衡量模型生成文本与参考文本间双词序列匹配程度,即短语/短句层面匹配度。同上,最大值为100。如下,rouge-2=1.67分偏低,但属正常现象:ROUGE-2要求连续两个词与标准答案完全一致,而大模型优势是语义一致但表达多样化泛化能力。大模型用不同短语表达相同意思,是生成能力体现,非缺陷。若rouge-2分数很高,反而说明模型泛化能力极差。

predict_rouge-l:ROUGE-L表示最长公共子序列匹配率,衡量模型生成文本与参考文本间最长公共子序列匹配程度,即整句语义连贯性与语序一致性。同上,最大值为100。如下,rouge-L=4.10中等分数,表示模型生成文本语义完整、逻辑通顺,虽句式与标准答案不同,但核心信息完整、语序合理,能准确回答问题。

若是文本摘要任务,则rouge-1一般20-40,rouge-2 5-15,rouge-L 10-25;若是开放问答/对话/指令遵循任务,则rouge-1 8-15,rouge-2 1-3,rouge-L 3-6。下列数值完全落在该区间内,属标准水平。

性能类指标:耗时/吞吐量/加载时间,衡量模型推理速度、效率、硬件利用率。

predict_model_preparation_time:表示模型加载和预热(显存初始化)耗时。如下,0.002s是优秀数值。

predict_runtime:本次批量推理总耗时,单位为秒。如下,15356秒 = 4小时16分钟。

predict_samples_per_second:每秒推理生成的样本数量,推理吞吐量核心指标,表示模型每秒钟生成的样本数量。用于评估模型推理速度。如下,0.243样本/秒,表示模型平均每4.1秒处理1条推理样本。

predict_steps_per_second:每秒执行的step数量,模型每秒钟能执行的step数量。模型每生成一个token就是一个step。如下,0.061 step/s表示每秒生成约0.061个token。

通过对比1 Epoch和3 Epoch微调结果可见,多轮训练后效果更好一些。

预测结果JSON截图:predict_bleu-4、predict_rouge-1、predict_runtime等键值对

预测结果JSON截图:predict_bleu-4、predict_rouge-1、predict_runtime等键值对

训练后也会在output_dir下看到如下新文件:

  • generated_predictions.jsonl:输出要预测的数据集原始label与模型predict结果。  
  • predict_results.json:给出原始label与模型predict结果,并用自动计算的指标数据。

终端文件列表截图:saves/Qwen3-1.7B-Base/lora/eval_2026-01-02-19-59-30/目录下all_results.json、generated_predictions.jsonl等

LoRA模型合并导出

通过不断“炼丹”直至效果满意后即可导出模型:将训练的LoRA模型与原始Base模型融合,输出一个完整模型文件。

检查点路径选择刚刚微调好的模型,切换到export,填写导出目录output/qwen3-1.7b-huanhuan

模型导出界面截图:“检查点路径”train_2026-01-02-06-01-20、“导出目录”/output/Qwen3-1.7B-huanhuan

导出完成即可在output目录下看到qwen3-1.7b-huanhuan目录。

终端文件列表截图:output/Qwen3-1.7B-huanhuan/目录下Modelfile、added_tokens.json、config.json等

部署运行微调后的大模型

此处用Ollama + GGUF进行部署。

其中,GGUF是大模型存储格式,可对模型进行高效压缩,减少模型大小与内存占用,从而提升推理速度与效率。如下,安装GGUF并将微调后大模型格式转换。

终端命令截图:`git clone llama.cpp`、`pip install --editable .`、`python convert hf to gguf.py`、`ll`列出gguf文件

另外,Ollama是大模型推理框架,适用于个人环境,简单而高效。

$ curl -fsSL https://ollama.com/install.sh | sh
$ ollama serve
$ ollama create qwen3-huanhuan -f /workspace/LlamaFactory/output/Qwen3-1.7B-huanhuan/Modelfile
$ ollama run qwen3-huanhuan

终端命令截图:curl安装ollama、ollama serve、ollama create、ollama run

水平条形图:橙红渐变柱状区域与黑色背景

为什么ThinkStation PGX是AI开发者的创新加速器?

相信很多AI开发者都经历过与笔者同样的困境:一方面,公司仅有的公共GPU服务器要排队申请,好不容易排到却发现环境被改得面目全非,调试半天才能跑代码;另一方面,想用消费级显卡本地验证想法,却发现小几十GB显存连70B大模型都加载不动。资源短缺与环境割裂,让我们80%的时间浪费在等待与折腾上,而非真正的创新。

ThinkStation PGX这台巴掌大的设备确实能解决AI开发的关键痛点:

  1. 独占算力,不再排队:128GB统一内存 + FP4量化技术,单机支持200B模型推理或70B模型微调,相当于把2~4张高端显卡算力浓缩进桌面设备。从此不必再争抢资源,想研究什么AI技术、安装什么AI框架、开发什么AI应用,皆可立刻开始。

  2. 开箱即用的生产级环境:预装与NVIDIA数据中心完全一致的软件栈(CUDA、PyTorch),本地调试的模型与容器可直接部署到云端服务器,告别“开发环境能跑,生产环境崩掉”的尴尬。

  3. 移动式超算工作站:1.2kg重量 + 35dB静音设计,插上电源与显示器就能在工位、实验室甚至咖啡厅继续工作,研究进程不再被地点束缚。

在深度使用与体验后,笔者认为ThinkStation PGX非常适用于以下人群与场景:

  • 个人AI开发者 / 小团队:独占资源,加速创新。  
  • 高校实验室 / 教育机构:低成本构建AI研究与教学平台,研究经费投入比GPU服务器更低。  
  • 企业研发部门:敏感数据本地微调,结合快速原型验证,兼顾安全与效率。  
  • 边缘计算:体积小巧、移动方便、算力强大,可塞进200B模型在边缘推理,促进AI边缘化应用。

简而言之,如果你厌倦了在共享GPU的等待队列中消磨创造力,受够了消费级显卡的显存天花板,ThinkStation PGX就是那台能够让我们把“超算装进背包”的终极武器——让开发环境沉默而可靠,让创新专注且自由。




上一篇:研发工程师年终总结框架:6个公式实例助你高效述职与呈现业务价值
下一篇:被小龙虾刷屏了!OpenClaw:让 AI 真的会"干活"了
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-1 00:13 , Processed in 1.365469 second(s), 47 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表