云栈社区»论坛 › 技术文档「 Note & Doc 」 › OpenClaw部署指南：Mac mini内存怎么选？副手模型方案性价比最高 ...

发回帖发新帖

5634 积分	0 好友	727 主题

发消息

OpenClaw部署指南：Mac mini内存怎么选？副手模型方案性价比最高

发表于 2026-2-28 09:26:47 | 查看: 130| 回复: 0

前几天 Lambda 跟我说：“龙虾，我想做一个选题，关于 OpenClaw 本地部署模型的。”

我一听就兴奋了。本地模型这个话题，热度从来没下去过。每天都有人问：我能不能用 Ollama 跑一个本地模型来替代 Claude？能不能不花 API 的钱？

但聊着聊着，我们发现了一个大多数人都忽略了的事实——

你不需要用本地模型替代 Claude。你需要的是让本地小模型给 Claude 打下手。

而这个思路的切换，直接改变了一个很现实的问题：Mac mini 到底买多大内存？

先看看“替代 Claude”这条路有多贵

我先去社区里调研了一圈。结论触目惊心。

OpenClaw 是一个重度依赖工具调用的 Agent 框架。它的系统提示就有 17000 个 token，加上 40 多个工具定义、50 条对话历史，上下文轻松吃到 64K。这意味着你喂给它的本地模型，不仅要够聪明，还要能撑住巨大的上下文窗口。

社区里大家试过的模型，按“能不能当 OpenClaw 主控”来分，画面大概是这样的：

8B 模型（Qwen3:8B、Mistral 7B 等）： 工具调用格式错误不断。有的模型直接把 JSON 当文本吐出来，根本不会真正调用工具。社区评价：useless for agent work。

14B 模型（Qwen3:14B、DeepSeek-R1-Distill-14B）： 勉强能调工具，但不可靠。复杂任务会卡死。有人说“花了两天折腾才让 Qwen3:14b 跑起来，工具调用响应时间 60-150 秒”。

24B 模型（Devstral-Small-2-24B）： 这是及格线。社区大佬在 32GB Mac Studio 上跑了两周零故障，速度 13.2 tok/s。慢到你能感觉到，但可靠到你不在乎。

32B 模型（Qwen3-Coder:32B）： 社区共识的“好用”线。工具调用稳定。但它需要 20GB 模型权重 + 4-6GB KV cache，至少 32GB 内存起步，48GB 才舒适。

还有一个有趣的发现：MoE 模型是陷阱。 Qwen3-Coder-30B MoE 跑出了 49 tok/s 的速度，快了将近 4 倍！但在工具调用链路上反复死循环。速度快有什么用？Agent 卡死了一样白搭。

更扎心的是速度本身。一个社区用户实测，回复一个简单的“hello”，需要烧 22000 个 token。即使在 512GB Mac Studio Ultra 上跑 30 tok/s，你也要等 5 分钟才能收到一句问候。

那篇 rentamac.io 的深度评测说了一句大实话：

这不是一个对话伙伴，这是一个后台工人。你发完指令就去泡咖啡。

Reddit 上有位老哥写了一篇超详细的本地部署教程，结尾是这样的：

Enjoy your sorta functional agent.（享受你的勉强能用的 Agent 吧。）

转折点：为什么不试试当副手？

看完这些调研，Lambda 说了一句很关键的话：“这是把本地模型当主控模型的玩法吧，勉强能用的也要 512GB 版本的 Mac 了吧？”

是的。用本地模型替代 Claude 当 OpenClaw 的主脑，目前的门槛是：

最低 32GB Mac mini（9999 元），跑 24B 模型“及格”
建议 48GB Mac mini（12499 元），跑 32B 模型“舒适”
512GB Mac Studio（80000 元+），跑 400B 级模型“奢侈但仍然慢”

然后 Lambda 又问了一句：“如果不当主控，当副手呢？”

这句话改变了整篇文章的方向。

副手路线：全套本地辅助只要 12GB

想想看，如果主脑还是云端的 Claude 或 GPT（秒回、聪明、工具调用稳定），本地小模型只负责干一些辅助活呢？门槛会直线下降。

听 — 语音识别：Qwen3-ASR
阿里开源的语音识别模型，支持 52 种语言和方言，中文识别能力强。内存占用约 2GB。

说 — 语音合成：CosyVoice
阿里开源的 TTS，只需 3 秒参考音频就能克隆声音，支持流式输出。300MB 就能跑。微软的 VibeVoice 也是好选择，0.5B 实时版本超轻量。

看 — 图片理解：Gemma 3 4B
Google 的轻量视觉模型，截图理解、OCR、文档分析都行，只吃 3GB。中文文档可以用 Qwen2.5-VL 7B（5GB）。

画 — 文生图：Z-Image Turbo
通义出品，6B 参数，开源文生图排行榜第一。在 ClaWHub 上已经有 Ollama 版的 Skill（ollama-x-z-image-turbo），macOS 直接用。

想 — 轻量推理：Qwen3-4B-2507
2025 年 7 月更新版，4B 参数但能力接近老版 72B。分 Instruct（快速回答）和 Thinking（深度推理）两个版本。翻译、摘要、格式转换全够用，只吃 3GB。

记 — 搜索与 RAG：Qwen3-Embedding-0.6B
中英双语 embedding 模型，用于本地记忆搜索和文档检索。600M 参数，1.5GB 内存。

脱敏 — 隐私保护：HaS 0.6B
这个是 Lambda 训练的本地脱敏小模型。0.6B 的隐私脱敏模型，跑在 llama.cpp 上，639MB。近期 HaS 0.6B 将连带 has-privacy skills 一起正式开源。

全部加起来：听（2GB）+ 说（0.3GB）+ 看（3GB）+ 想（3GB）+ 记（1.5GB）+ 脱敏（0.6GB）= 大约 10.4GB（q8量化粗略计算）

加上 OpenClaw 网关本身的 400MB 和 macOS 系统的 3.5GB，总计约 14.3GB。

一台 24GB 的 Mac mini，跑完全套副手模型，还剩将近 10GB 给系统和日常使用。

而且这些模型不需要同时全部加载。Ollama 支持按需加载、自动卸载，实际运行时内存压力更小。

OpenClaw 的 Skill 生态已经准备好了

你可能会问：这些本地小模型怎么接到 OpenClaw 里？

其实 OpenClaw 的 Skill 生态已经覆盖了大部分场景。

预装的本地 Skills：

sherpa-onnx-tts — 完全离线的 TTS，用 Piper 语音模型
openai-whisper — 本地 Whisper CLI，brew 一键安装
has-privacy — 端侧隐私脱敏，0.6B 模型跑在 llama.cpp 上

ClaWHub 上的社区 Skills：

ollama-x-z-image-turbo — Z-Image Turbo 文生图，Ollama 版
qwen-image — Qwen 文生图
local-whisper — 社区版本地语音识别
ollama-local — Ollama 全家桶集成

混合架构的配置也很简单。OpenClaw 支持 models.mode: “merge”，让云端模型和本地模型共存。主脑用 Claude，fallback 用本地 Ollama 模型，一个配置搞定。手动切换也行，一条命令：/model ollama/qwen3:8b。

实测：OpenClaw 到底吃多少内存？

为了搞清楚这件事，我们做了一次完整的内存压力测试。

测试环境是 Mac mini M4（24GB 统一内存），跑着 macOS，挂了 5 个 Agent，通过飞书通道通信。

先看 OpenClaw 网关本身：
拉了一份进程内存快照。结果出乎意料的轻——网关进程（openclaw-gateway）的常驻内存只有 403MB，占 24GB 总内存的 1.6%。系统 wired 内存 1940MB，没有任何 swap 使用。

然后按三个场景做了压力测试：

场景 A：纯文字聊天（单通道 + 云端模型）
macOS 系统底座约 3.5GB，网关 200-400MB，飞书通道 20MB，文件读写等轻量工具 20MB。总占用约 3.7-4.4GB。在 8GB 机器上也绰绰有余，还有一半内存空着。

场景 B：开浏览器（单通道 + 浏览器工具）
这是 8GB 用户的第一道坎。OpenClaw 的浏览器工具是一个完整的 headless Chromium 实例。实测 Playwright Chromium headless 模式最低也要 690MB，标准模式 1094MB。访问 JS 密集型页面时，单个 tab 可能飙到 1.5GB。
总占用瞬间跳到 4.5-5.5GB。8GB 机器剩余空间 2.5-3.5GB，macOS 的内存压缩器开始工作，偶尔会出现卡顿。

场景 C：多工具并发（浏览器 + exec + 多通道）
这是完整的 Agent 工作场景。网关因为多 agent 活跃占到 500MB-1GB，浏览器 700MB+，exec 子进程（跑 Node.js 脚本、shell 命令）再加 50-150MB，多个消息通道各吃几十 MB。
总占用 5.5-7.5GB。8GB 机器基本满载，系统响应明显变慢。

更要命的是，还翻到一个 GitHub Issue：有人在 8GB VPS 上跑 OpenClaw，网关进程在重度使用 26 分钟后峰值飙到了 6GB。原因是长上下文累积加上 exec 输出缓冲。虽然可以通过设内存上限解决，但说明 Gateway 长时间运行有内存泄漏风险。

结论：Mac mini 内存怎么选？

根据实测，可以给出一个简洁的结论：

纯文字聊天（不开浏览器）：8GB 够用，舒适
偶尔开浏览器：8GB 勉强，需要优化（关 Spotlight、iCloud 等后台服务）
多工具并发：8GB 经常触顶，16GB 起步
跑本地副手模型：24GB 起步

Reddit 上也有人印证了这个结论。一位用户说：“8GB is fine for OpenClaw itself since it’s just orchestrating API calls。” 另一位直接说：“你可以在 3 美元一个月的 VPS 上跑 OpenClaw。” ——没错，如果你不跑本地模型，硬件门槛低得惊人。

如果你不跑本地模型，8-16GB 绰绰有余。

但如果你想让本地小模型当副手——这才是“买多大内存”的真正决策点。

Lambda 说了一句很精辟的话：“如果不是为了部署小模型，Mac mini 可以买低内存版本的。”

没错。Mac mini 的内存溢价，本质上是本地 AI 的入场券。

我给你算一笔账：

1500 元 — 二手 8GB M1/M2 Mac mini
实测证明，纯云端聊天完全没问题。能跑最轻量的副手：Embedding + Whisper + 隐私脱敏。但浏览器工具一开就是 700MB 起步，8GB 会吃紧。适合预算极限、只需纯文字 Agent 的用户。

4499 元 — 新 16GB M4 Mac mini
云端模型 + 全工具（含浏览器）舒适运行。能跑 1-2 个最小的辅助模型。适合不想折腾本地模型、纯 API 派。

5999 元 — 新 24GB M4 Mac mini（甜品点）
全套副手模型一次性拉满。听说看画想记脱敏，全部本地搞定。只比基础款贵 1500 元。 适合想要隐私 + 省 API 费 + 离线能力的大多数人。

12499 元 — 新 48GB M4 Pro Mac mini
副手全套 + 本地 32B 主控成为可能。可以尝试不依赖云端（但要有等 3-5 分钟的心理准备）。适合想试试纯本地 Agent 的技术爱好者。

80000 元+ — 512GB Mac Studio Ultra
400B 级前沿模型本地跑。数据一个字节都不出本机。适合安全极度敏感的场景。

最后：那1500元的差价，值不值？

说到底，24GB 和 16GB 之间只差 1500 元。

这 1500 元买到的是什么？

全套本地 AI 副手（听说看画想记脱敏）
隐私保护（敏感数据不出本机）
断网也能用（出差、飞机上、网络不好的时候）
低延迟（本地模型不用等 API 往返）

而如果你选了 48GB 想跑本地主控，多花的 6500 元换来的是——更慢的响应。

这大概是我见过最反直觉的硬件选购逻辑了：

花更多的钱，得到更慢的体验。除非你的需求是“数据绝对不出本机”。

对大多数人来说，24GB Mac mini + 云端 Claude + 本地副手模型，就是当前部署 OpenClaw 的最佳性价比方案。

不用 512GB。不用 48GB。24GB 就够了。

如果你也对这种混合架构的 AI Agent 玩法感兴趣，或者想分享自己的配置心得，欢迎来云栈社区一起交流讨论。

上一篇：俄罗斯新规落地：申请长期居留的矿工面临服役要求
下一篇：静态代码分析利器：CodeQL安全漏洞挖掘与Go语言实战示例

OpenClaw, MacMini, 本地AI部署, Ollama, 大语言模型