前面的章节我们讲解了 LlaMA Factory 在Windows环境下的安装与基础使用。本章节将继续深入,介绍如何使用 SwanLab 看板 来可视化地监控和记录你的模型训练过程,这能让你更直观地观察损失变化、梯度、学习率等关键指标。
安装 SwanLab
首先,你需要在 LlaMA Factory 的源码目录中安装 SwanLab 及其依赖。打开命令行,切换到项目目录,执行以下两条命令:
pip install -r requirements\swanlab.txt
pip install "swanlab[dashboard]"
第一条命令会安装 SwanLab 所需的基础依赖,第二条命令则安装了包含本地仪表盘功能(dashboard)的完整 SwanLab,这样你就能在浏览器中查看实时训练数据了。
在 LlaMA Factory WebUI 中配置 SwanLab
安装完成后,启动 LlaMA Factory 的 WebUI 界面,在开始训练前需要进行几项关键配置:
- 在 “其他参数设置” 区域,找到 “启用外部记录面板” 选项,并将其设置为
none。
- 展开 “SwanLab 参数设置”,勾选 “使用 SwanLab”。
- 在 “SwanLab 模式” 中,选择
local 模式以使用本地仪表盘。
这些配置项的位置如下:


配置完毕后,像往常一样点击“开始”按钮进行训练。在训练启动的日志中,你会看到 SwanLab 初始化成功的提示,并告知你日志的存放路径。通常路径格式类似于 E:\LlamaFactory\swanlog\run-[时间戳]。

启动 SwanLab 仪表盘查看训练状态
训练开始后,你需要启动独立的 SwanLab 仪表盘服务来可视化这些日志。保持命令行窗口,导航至 LlaMA Factory 项目根目录,执行以下命令:
swanlab watch swanlog
这里的 swanlog 就是上一步日志输出中提到的目录名(通常是项目根目录下的 swanlog 文件夹)。命令成功执行后,会显示本地服务的访问地址。

通常地址会是 http://127.0.0.1:5092。打开你的浏览器并访问这个地址,就能看到 SwanLab 的主界面了。界面中会列出当前正在运行或历史的所有实验,你可以轻松找到你刚刚启动的训练任务。

查看详细的训练指标与实验信息
在实验列表中,直接点击你的实验名称(例如图中的 lion-21),就可以进入该实验的详情页面。在这里,SwanLab 为你提供了丰富的监控视图:
- 训练图表:实时展示训练损失(Loss)、梯度范数(Grad Norm)、学习率(Learning Rate)等关键指标随训练步数(Step)的变化曲线。这让你能够一目了然地判断模型的学习状态是否正常,是否存在梯度爆炸或消失等问题。
- 实验概览:详细记录了实验的创建时间、运行时长、使用的框架版本、模型路径、硬件配置以及具体的大模型微调方法(如LoRA)和超参数等信息。
- 系统信息:清晰展示了运行实验的主机环境,包括操作系统、Python版本、工作目录等,方便进行环境复现和问题排查。


通过这些可视化图表和结构化信息,你可以彻底摆脱仅依赖控制台日志的盲调状态,极大地提升了调试效率和模型训练的透明度。这套在 Windows 系统上运行的图形化解决方案,为本地进行大模型研究和开发提供了强有力的支持。如果你在实践过程中有任何心得或疑问,欢迎到 云栈社区 与其他开发者交流探讨。
|