找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3139

积分

0

好友

421

主题
发表于 2 小时前 | 查看: 3| 回复: 0

硬件环境与准备

本次实践的“老兵”是一台HP Z238 Microtower工作站。具体配置如下:

  • 系统型号: HP Z238 Microtower Workstation
  • BIOS 版本: HP N51 Ver. 01.50 (2017/1/11)
  • 物理内存总量: 8,079 MB
  • 网卡: Intel(R) Ethernet Connection (2) I219-LM
  • 显卡: AMD FirePro W2100 (2GB VRAM)
  • CPU: Intel i7-6700

HP Z238工作站系统资源监控界面

这样的配置在如今动辄数十亿参数的大模型时代,显得有些力不从心。但我们的目标就是“利旧”,探索在有限资源下运行轻量化人工智能模型的可行性。

第一步:驱动与基础环境部署

1. GPU驱动安装

对于AMD显卡,需要前往AMD官网下载并安装对应的专业版驱动。本次安装的是 win10-radeon-pro-software-enterprise-21.Q2.1.exe。安装完成后,可以在系统内查看GPU信息。

Mission Control硬件检测界面

2. 安装 Ollama

Ollama 是本地运行大型语言模型的利器。你可以从官网下载Windows版本。如果国内下载速度较慢,也可以使用以下网盘链接获取 Ollama V0.6.0 版本:

  • 链接: https://pan.baidu.com/s/1vG4yQ9PlKqJG1kg2FY7qcw?pwd=aq4a
  • 提取码: aq4a

下载后直接安装即可,它会自动将 ollama 命令添加到系统路径。

第二步:拉取与运行 DeepSeek R1 模型

考虑到老工作站的性能(仅8GB内存和入门级显卡),直接运行7B参数模型非常困难。因此,我们选择参数更少的 DeepSeek-R1:1.5b 版本,它可以在纯CPU模式下流畅运行。

打开命令提示符或 PowerShell,执行以下命令拉取并运行模型:

C:\Users\A>ollama run deepseek-r1:1.5b
pulling manifest
pulling aabd4debf0c8... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.1 GB
pulling 369ca498f347... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  387 B
pulling 6e4c38e1172f... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏ 1.1 KB
pulling f4d24e9138dd... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  148 B
pulling a85fe2a2e58e... 100% ▕█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  487 B
verifying sha256 digest
writing manifest
success
>>>
>>> Send a message (/? for help)

拉取成功后,会进入交互式对话界面。输入 Ctrl+D 可以退出对话。

你可以使用 ollama list 查看已下载的模型,使用 --verbose 参数运行可以查看详细的推理过程,包括 Token 数量和速度。

C:\Users\A>ollama list
NAME                ID              SIZE      MODIFIED
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    30 minutes ago

C:\Users\A>ollama run deepseek-r1:1.5b --verbose #显示token数量
>>> 你好

你好!很高兴见到你,有什么我可以帮忙的吗?无论是问题、建议还是闲聊,我都在这儿为你服务。😊

total duration:       1.5123911s
load duration:        18.8469ms
prompt eval count:    4 token(s)
prompt eval duration: 70ms
prompt eval rate:     57.14 tokens/s
eval count:           32 token(s)
eval duration:        1.422s
eval rate:            22.50 tokens/s
>>>

可以看到,在纯CPU模式下,首次响应时间约1.5秒,生成速度约22.5 tokens/秒,对于老机器来说完全可以接受。

第三步:图形化客户端与知识库应用

在命令行里对话不够方便,接下来我们通过几种图形化前端来连接我们本地的 Ollama 服务。

3.1 使用 Chatbox 客户端

Chatbox 是一个简洁美观的跨平台 AI 聊天客户端。

  1. 下载安装:访问 Chatbox 官网 下载安装包,建议右键“以管理员身份运行”进行安装。
  2. 配置连接:安装完成后,打开设置,进行如下配置:
    • 模型提供方:选择 OLLAMA API
    • API 域名:填入你的 Ollama 服务地址,例如 http://10.24.118.26:11434/ (11434 是 Ollama 默认端口)。如果服务就在本机,也可以用 http://localhost:11434
    • 模型:填入 deepseek-r1:1.5b 或从下拉框中选择。

Chatbox连接Ollama配置界面

配置保存后,即可在 Chatbox 中与本地模型对话。

Chatbox与DeepSeek-R1对话界面

知识库功能:Chatbox 支持上传本地文档(如 TXT、PDF),让模型基于文档内容进行回答,实现简单的 RAG 流程。

Chatbox知识库问答示例

3.2 使用浏览器插件 Page Assist

Page Assist 是一个功能强大的浏览器插件,能将本地 AI 模型的能力集成到网页浏览中。

  1. 下载插件:前往其 GitHub Releases 页面,下载对应浏览器版本的压缩包(如 pageassist-1.5.1-chrome.zip)。

Page Assist GitHub发布页面

  1. 安装插件
    • 将下载的 ZIP 包解压到一个文件夹。
    • 打开 Chrome 浏览器,进入“扩展程序”管理页面(右上角三个点 -> 更多工具 -> 扩展程序)。
    • 开启右上角的“开发者模式”。
    • 点击“加载已解压的扩展程序”,选择你刚才解压的文件夹。

Chrome扩展程序管理入口
加载已解压的扩展程序

  1. 配置插件
    • 安装后,点击浏览器工具栏的 Page Assist 图标,打开其 Web UI。
    • 进入设置,找到 Ollama 设置
    • Ollama URL 中填入你的服务地址,例如 http://10.24.118.26:11434
    • 关键步骤:展开“Ollama URL 高级配置”,开启“启用或禁用自定义来源 URL”,并在“自定义来源 URL”中填入同样的地址,然后保存。

Page Assist Ollama 配置界面

  1. 使用对话:配置完成后,在插件主界面顶部的模型下拉框中,即可选择 deepseek-r1:1.5b 等已加载的模型,开始对话。

Page Assist 对话界面

知识库功能:Page Assist 同样具备强大的 RAG 能力。在对话时,它可以引用你上传或配置的本地文档片段来回答问题。

Page Assist 知识库引用回答

3.3 使用 LM Studio(可选)

LM Studio 是另一个优秀的本地模型管理工具,界面直观,适合探索和测试不同模型。

  1. 在 LM Studio 的“发现”或“我的模型”页面,你可以搜索并下载 deepseek-r1-distill-qwen-1.5b 等模型。
  2. 下载完成后,加载模型即可在聊天窗口中使用。

LM Studio 模型选择界面
LM Studio 使用 Llama 3.2 1B 模型对话
LM Studio 使用 DeepSeek R1 1.5B 模型对话

第四步:尝试更小的模型与GPU调用

如果你的老工作站显卡还有一点余力(比如2GB显存),可以尝试运行更小的模型,并将其部分计算负载分配到GPU上。

4.1 运行 TinyLlama 1.1B

TinyLlama-1.1B-Chat 是一个仅 636MB 的极小型对话模型,非常适合资源受限的环境。在 LM Studio 中很容易找到并加载它。

LM Studio 中的 TinyLlama 1.1B 模型

加载后,可以进行流畅对话。

LM Studio 运行 TinyLlama 1.1B 对话

4.2 观察 GPU 资源占用

当你运行一个足够小的模型,并且系统正确识别了 GPU 时,Ollama 或 LM Studio 可能会尝试利用 GPU 进行计算。此时可以通过任务管理器或 AMD 驱动面板观察 GPU 的利用率。

GPU资源占用监控图

上图显示,在运行模型推理时,AMD FirePro W2100 的 GPU 利用率达到了 97%,显存使用了 887MB,说明计算任务已经成功分流到了 GPU 上,这能显著提升推理速度并降低 CPU 负载。

总结

通过以上步骤,我们成功在一台2017年的HP Z238老工作站上,部署了 Ollama 服务,运行了 DeepSeek-R1:1.5b 模型,并通过 Chatbox、Page Assist 插件实现了图形化对话及本地知识库RAG功能。整个过程证明了,即使是没有高端显卡的老旧硬件,也完全有能力在本地运行轻量级大语言模型,并实现有价值的应用。

这为很多个人开发者、小型团队或教育机构提供了一种低成本探索AI技术的可行路径。关键在于选择合适的模型(如1.5B、1.1B参数级别)和高效的工具链(如Ollama)。希望这篇在云栈社区分享的实践记录,能给你带来启发。




上一篇:游戏中心首页改版2.0:沉浸式游戏化设计思路与实战复盘
下一篇:前端AI工具实践:10分钟快速构建WebAssembly图片背景移除网页
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-11 07:55 , Processed in 0.607098 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表