云栈社区»论坛 › 技术文档「 Note & Doc 」 › 基于Ollama在HP Z238老工作站部署DeepSeek R1 1.5B模型并构建本 ...

发回帖发新帖

3862 积分	0 好友	510 主题

发消息

基于Ollama在HP Z238老工作站部署DeepSeek R1 1.5B模型并构建本地知识库RAG实践

发表于 2026-4-11 05:26:28 | 查看: 121| 回复: 0

硬件环境与准备

本次实践的“老兵”是一台HP Z238 Microtower工作站。具体配置如下：

系统型号: HP Z238 Microtower Workstation
BIOS 版本: HP N51 Ver. 01.50 (2017/1/11)
物理内存总量: 8,079 MB
网卡: Intel(R) Ethernet Connection (2) I219-LM
显卡: AMD FirePro W2100 (2GB VRAM)
CPU: Intel i7-6700

HP Z238工作站系统资源监控界面

这样的配置在如今动辄数十亿参数的大模型时代，显得有些力不从心。但我们的目标就是“利旧”，探索在有限资源下运行轻量化人工智能模型的可行性。

第一步：驱动与基础环境部署

1. GPU驱动安装

对于AMD显卡，需要前往AMD官网下载并安装对应的专业版驱动。本次安装的是 win10-radeon-pro-software-enterprise-21.Q2.1.exe。安装完成后，可以在系统内查看GPU信息。

Mission Control硬件检测界面

2. 安装 Ollama

Ollama 是本地运行大型语言模型的利器。你可以从官网下载Windows版本。如果国内下载速度较慢，也可以使用以下网盘链接获取 Ollama V0.6.0 版本：

链接: https://pan.baidu.com/s/1vG4yQ9PlKqJG1kg2FY7qcw?pwd=aq4a
提取码: aq4a

下载后直接安装即可，它会自动将 ollama 命令添加到系统路径。

第二步：拉取与运行 DeepSeek R1 模型

考虑到老工作站的性能（仅8GB内存和入门级显卡），直接运行7B参数模型非常困难。因此，我们选择参数更少的 DeepSeek-R1:1.5b 版本，它可以在纯CPU模式下流畅运行。

打开命令提示符或 PowerShell，执行以下命令拉取并运行模型：

C:\Users\A>ollama run deepseek-r1:1.5b
pulling manifest
pulling aabd4debf0c8... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  387 B
pulling 6e4c38e1172f... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  148 B
pulling a85fe2a2e58e... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  487 B
verifying sha256 digest
writing manifest
success
>>>
>>> Send a message (/? for help)

拉取成功后，会进入交互式对话界面。输入 Ctrl+D 可以退出对话。

你可以使用 ollama list 查看已下载的模型，使用 --verbose 参数运行可以查看详细的推理过程，包括 Token 数量和速度。

C:\Users\A>ollama list
NAME                ID              SIZE      MODIFIED
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    30 minutes ago

C:\Users\A>ollama run deepseek-r1:1.5b --verbose #显示token数量
>>> 你好

你好！很高兴见到你，有什么我可以帮忙的吗？无论是问题、建议还是闲聊，我都在这儿为你服务。😊

total duration:       1.5123911s
load duration:        18.8469ms
prompt eval count:    4 token(s)
prompt eval duration: 70ms
prompt eval rate:     57.14 tokens/s
eval count:           32 token(s)
eval duration:        1.422s
eval rate:            22.50 tokens/s
>>>

可以看到，在纯CPU模式下，首次响应时间约1.5秒，生成速度约22.5 tokens/秒，对于老机器来说完全可以接受。

第三步：图形化客户端与知识库应用

在命令行里对话不够方便，接下来我们通过几种图形化前端来连接我们本地的 Ollama 服务。

3.1 使用 Chatbox 客户端

Chatbox 是一个简洁美观的跨平台 AI 聊天客户端。

下载安装：访问 Chatbox 官网下载安装包，建议右键“以管理员身份运行”进行安装。
配置连接：安装完成后，打开设置，进行如下配置：
- 模型提供方：选择 OLLAMA API
- API 域名：填入你的 Ollama 服务地址，例如 http://10.24.118.26:11434/ (11434 是 Ollama 默认端口)。如果服务就在本机，也可以用 http://localhost:11434。
- 模型：填入 deepseek-r1:1.5b 或从下拉框中选择。

Chatbox连接Ollama配置界面

配置保存后，即可在 Chatbox 中与本地模型对话。

Chatbox与DeepSeek-R1对话界面

知识库功能：Chatbox 支持上传本地文档（如 TXT、PDF），让模型基于文档内容进行回答，实现简单的 RAG 流程。

Chatbox知识库问答示例

3.2 使用浏览器插件 Page Assist

Page Assist 是一个功能强大的浏览器插件，能将本地 AI 模型的能力集成到网页浏览中。

下载插件：前往其 GitHub Releases 页面，下载对应浏览器版本的压缩包（如 pageassist-1.5.1-chrome.zip）。

Page Assist GitHub发布页面

安装插件：
- 将下载的 ZIP 包解压到一个文件夹。
- 打开 Chrome 浏览器，进入“扩展程序”管理页面（右上角三个点 -> 更多工具 -> 扩展程序）。
- 开启右上角的“开发者模式”。
- 点击“加载已解压的扩展程序”，选择你刚才解压的文件夹。

Chrome扩展程序管理入口
加载已解压的扩展程序

配置插件：
- 安装后，点击浏览器工具栏的 Page Assist 图标，打开其 Web UI。
- 进入设置，找到 Ollama 设置。
- 在 Ollama URL 中填入你的服务地址，例如 http://10.24.118.26:11434。
- 关键步骤：展开“Ollama URL 高级配置”，开启“启用或禁用自定义来源 URL”，并在“自定义来源 URL”中填入同样的地址，然后保存。

Page Assist Ollama 配置界面

使用对话：配置完成后，在插件主界面顶部的模型下拉框中，即可选择 deepseek-r1:1.5b 等已加载的模型，开始对话。

Page Assist 对话界面

知识库功能：Page Assist 同样具备强大的 RAG 能力。在对话时，它可以引用你上传或配置的本地文档片段来回答问题。

Page Assist 知识库引用回答

3.3 使用 LM Studio（可选）

LM Studio 是另一个优秀的本地模型管理工具，界面直观，适合探索和测试不同模型。

在 LM Studio 的“发现”或“我的模型”页面，你可以搜索并下载 deepseek-r1-distill-qwen-1.5b 等模型。
下载完成后，加载模型即可在聊天窗口中使用。

LM Studio 模型选择界面
LM Studio 使用 Llama 3.2 1B 模型对话
LM Studio 使用 DeepSeek R1 1.5B 模型对话

第四步：尝试更小的模型与GPU调用

如果你的老工作站显卡还有一点余力（比如2GB显存），可以尝试运行更小的模型，并将其部分计算负载分配到GPU上。

4.1 运行 TinyLlama 1.1B

TinyLlama-1.1B-Chat 是一个仅 636MB 的极小型对话模型，非常适合资源受限的环境。在 LM Studio 中很容易找到并加载它。

LM Studio 中的 TinyLlama 1.1B 模型

加载后，可以进行流畅对话。

LM Studio 运行 TinyLlama 1.1B 对话

4.2 观察 GPU 资源占用

当你运行一个足够小的模型，并且系统正确识别了 GPU 时，Ollama 或 LM Studio 可能会尝试利用 GPU 进行计算。此时可以通过任务管理器或 AMD 驱动面板观察 GPU 的利用率。

GPU资源占用监控图

上图显示，在运行模型推理时，AMD FirePro W2100 的 GPU 利用率达到了 97%，显存使用了 887MB，说明计算任务已经成功分流到了 GPU 上，这能显著提升推理速度并降低 CPU 负载。

总结

通过以上步骤，我们成功在一台2017年的HP Z238老工作站上，部署了 Ollama 服务，运行了 DeepSeek-R1:1.5b 模型，并通过 Chatbox、Page Assist 插件实现了图形化对话及本地知识库RAG功能。整个过程证明了，即使是没有高端显卡的老旧硬件，也完全有能力在本地运行轻量级大语言模型，并实现有价值的应用。

这为很多个人开发者、小型团队或教育机构提供了一种低成本探索AI技术的可行路径。关键在于选择合适的模型（如1.5B、1.1B参数级别）和高效的工具链（如Ollama）。希望这篇在云栈社区分享的实践记录，能给你带来启发。

上一篇：游戏中心首页改版2.0：沉浸式游戏化设计思路与实战复盘
下一篇：前端AI工具实践：10分钟快速构建WebAssembly图片背景移除网页

Ollama, DeepSeek, RAG, 知识库, 本地部署