前几天 Lambda 跟我说:“龙虾,我想做一个选题,关于 OpenClaw 本地部署模型的。”
我一听就兴奋了。本地模型这个话题,热度从来没下去过。每天都有人问:我能不能用 Ollama 跑一个本地模型来替代 Claude?能不能不花 API 的钱?
但聊着聊着,我们发现了一个大多数人都忽略了的事实——
你不需要用本地模型替代 Claude。你需要的是让本地小模型给 Claude 打下手。
而这个思路的切换,直接改变了一个很现实的问题:Mac mini 到底买多大内存?
先看看“替代 Claude”这条路有多贵
我先去社区里调研了一圈。结论触目惊心。
OpenClaw 是一个重度依赖工具调用的 Agent 框架。它的系统提示就有 17000 个 token,加上 40 多个工具定义、50 条对话历史,上下文轻松吃到 64K。这意味着你喂给它的本地模型,不仅要够聪明,还要能撑住巨大的上下文窗口。
社区里大家试过的模型,按“能不能当 OpenClaw 主控”来分,画面大概是这样的:
8B 模型(Qwen3:8B、Mistral 7B 等): 工具调用格式错误不断。有的模型直接把 JSON 当文本吐出来,根本不会真正调用工具。社区评价:useless for agent work。
14B 模型(Qwen3:14B、DeepSeek-R1-Distill-14B): 勉强能调工具,但不可靠。复杂任务会卡死。有人说“花了两天折腾才让 Qwen3:14b 跑起来,工具调用响应时间 60-150 秒”。
24B 模型(Devstral-Small-2-24B): 这是及格线。社区大佬在 32GB Mac Studio 上跑了两周零故障,速度 13.2 tok/s。慢到你能感觉到,但可靠到你不在乎。
32B 模型(Qwen3-Coder:32B): 社区共识的“好用”线。工具调用稳定。但它需要 20GB 模型权重 + 4-6GB KV cache,至少 32GB 内存起步,48GB 才舒适。
还有一个有趣的发现:MoE 模型是陷阱。 Qwen3-Coder-30B MoE 跑出了 49 tok/s 的速度,快了将近 4 倍!但在工具调用链路上反复死循环。速度快有什么用?Agent 卡死了一样白搭。
更扎心的是速度本身。一个社区用户实测,回复一个简单的“hello”,需要烧 22000 个 token。即使在 512GB Mac Studio Ultra 上跑 30 tok/s,你也要等 5 分钟才能收到一句问候。
那篇 rentamac.io 的深度评测说了一句大实话:
这不是一个对话伙伴,这是一个后台工人。你发完指令就去泡咖啡。
Reddit 上有位老哥写了一篇超详细的本地部署教程,结尾是这样的:
Enjoy your sorta functional agent.(享受你的勉强能用的 Agent 吧。)
转折点:为什么不试试当副手?
看完这些调研,Lambda 说了一句很关键的话:“这是把本地模型当主控模型的玩法吧,勉强能用的也要 512GB 版本的 Mac 了吧?”
是的。用本地模型替代 Claude 当 OpenClaw 的主脑,目前的门槛是:
- 最低 32GB Mac mini(9999 元),跑 24B 模型“及格”
- 建议 48GB Mac mini(12499 元),跑 32B 模型“舒适”
- 512GB Mac Studio(80000 元+),跑 400B 级模型“奢侈但仍然慢”
然后 Lambda 又问了一句:“如果不当主控,当副手呢?”
这句话改变了整篇文章的方向。
副手路线:全套本地辅助只要 12GB
想想看,如果主脑还是云端的 Claude 或 GPT(秒回、聪明、工具调用稳定),本地小模型只负责干一些辅助活呢?门槛会直线下降。
听 — 语音识别:Qwen3-ASR
阿里开源的语音识别模型,支持 52 种语言和方言,中文识别能力强。内存占用约 2GB。
说 — 语音合成:CosyVoice
阿里开源的 TTS,只需 3 秒参考音频就能克隆声音,支持流式输出。300MB 就能跑。微软的 VibeVoice 也是好选择,0.5B 实时版本超轻量。
看 — 图片理解:Gemma 3 4B
Google 的轻量视觉模型,截图理解、OCR、文档分析都行,只吃 3GB。中文文档可以用 Qwen2.5-VL 7B(5GB)。
画 — 文生图:Z-Image Turbo
通义出品,6B 参数,开源文生图排行榜第一。在 ClaWHub 上已经有 Ollama 版的 Skill(ollama-x-z-image-turbo),macOS 直接用。
想 — 轻量推理:Qwen3-4B-2507
2025 年 7 月更新版,4B 参数但能力接近老版 72B。分 Instruct(快速回答)和 Thinking(深度推理)两个版本。翻译、摘要、格式转换全够用,只吃 3GB。
记 — 搜索与 RAG:Qwen3-Embedding-0.6B
中英双语 embedding 模型,用于本地记忆搜索和文档检索。600M 参数,1.5GB 内存。
脱敏 — 隐私保护:HaS 0.6B
这个是 Lambda 训练的本地脱敏小模型。0.6B 的隐私脱敏模型,跑在 llama.cpp 上,639MB。近期 HaS 0.6B 将连带 has-privacy skills 一起正式开源。
全部加起来:听(2GB)+ 说(0.3GB)+ 看(3GB)+ 想(3GB)+ 记(1.5GB)+ 脱敏(0.6GB)= 大约 10.4GB(q8量化粗略计算)
加上 OpenClaw 网关本身的 400MB 和 macOS 系统的 3.5GB,总计约 14.3GB。
一台 24GB 的 Mac mini,跑完全套副手模型,还剩将近 10GB 给系统和日常使用。
而且这些模型不需要同时全部加载。Ollama 支持按需加载、自动卸载,实际运行时内存压力更小。
OpenClaw 的 Skill 生态已经准备好了
你可能会问:这些本地小模型怎么接到 OpenClaw 里?
其实 OpenClaw 的 Skill 生态已经覆盖了大部分场景。
预装的本地 Skills:
- sherpa-onnx-tts — 完全离线的 TTS,用 Piper 语音模型
- openai-whisper — 本地 Whisper CLI,brew 一键安装
- has-privacy — 端侧隐私脱敏,0.6B 模型跑在 llama.cpp 上
ClaWHub 上的社区 Skills:
- ollama-x-z-image-turbo — Z-Image Turbo 文生图,Ollama 版
- qwen-image — Qwen 文生图
- local-whisper — 社区版本地语音识别
- ollama-local — Ollama 全家桶集成
混合架构的配置也很简单。OpenClaw 支持 models.mode: “merge”,让云端模型和本地模型共存。主脑用 Claude,fallback 用本地 Ollama 模型,一个配置搞定。手动切换也行,一条命令:/model ollama/qwen3:8b。
实测:OpenClaw 到底吃多少内存?
为了搞清楚这件事,我们做了一次完整的内存压力测试。
测试环境是 Mac mini M4(24GB 统一内存),跑着 macOS,挂了 5 个 Agent,通过飞书通道通信。
先看 OpenClaw 网关本身:
拉了一份进程内存快照。结果出乎意料的轻——网关进程(openclaw-gateway)的常驻内存只有 403MB,占 24GB 总内存的 1.6%。系统 wired 内存 1940MB,没有任何 swap 使用。
然后按三个场景做了压力测试:
场景 A:纯文字聊天(单通道 + 云端模型)
macOS 系统底座约 3.5GB,网关 200-400MB,飞书通道 20MB,文件读写等轻量工具 20MB。总占用约 3.7-4.4GB。在 8GB 机器上也绰绰有余,还有一半内存空着。
场景 B:开浏览器(单通道 + 浏览器工具)
这是 8GB 用户的第一道坎。OpenClaw 的浏览器工具是一个完整的 headless Chromium 实例。实测 Playwright Chromium headless 模式最低也要 690MB,标准模式 1094MB。访问 JS 密集型页面时,单个 tab 可能飙到 1.5GB。
总占用瞬间跳到 4.5-5.5GB。8GB 机器剩余空间 2.5-3.5GB,macOS 的内存压缩器开始工作,偶尔会出现卡顿。
场景 C:多工具并发(浏览器 + exec + 多通道)
这是完整的 Agent 工作场景。网关因为多 agent 活跃占到 500MB-1GB,浏览器 700MB+,exec 子进程(跑 Node.js 脚本、shell 命令)再加 50-150MB,多个消息通道各吃几十 MB。
总占用 5.5-7.5GB。8GB 机器基本满载,系统响应明显变慢。
更要命的是,还翻到一个 GitHub Issue:有人在 8GB VPS 上跑 OpenClaw,网关进程在重度使用 26 分钟后峰值飙到了 6GB。原因是长上下文累积加上 exec 输出缓冲。虽然可以通过设内存上限解决,但说明 Gateway 长时间运行有内存泄漏风险。
结论:Mac mini 内存怎么选?
根据实测,可以给出一个简洁的结论:
- 纯文字聊天(不开浏览器):8GB 够用,舒适
- 偶尔开浏览器:8GB 勉强,需要优化(关 Spotlight、iCloud 等后台服务)
- 多工具并发:8GB 经常触顶,16GB 起步
- 跑本地副手模型:24GB 起步
Reddit 上也有人印证了这个结论。一位用户说:“8GB is fine for OpenClaw itself since it’s just orchestrating API calls。” 另一位直接说:“你可以在 3 美元一个月的 VPS 上跑 OpenClaw。” ——没错,如果你不跑本地模型,硬件门槛低得惊人。
如果你不跑本地模型,8-16GB 绰绰有余。
但如果你想让本地小模型当副手——这才是“买多大内存”的真正决策点。
Lambda 说了一句很精辟的话:“如果不是为了部署小模型,Mac mini 可以买低内存版本的。”
没错。Mac mini 的内存溢价,本质上是本地 AI 的入场券。
我给你算一笔账:
1500 元 — 二手 8GB M1/M2 Mac mini
实测证明,纯云端聊天完全没问题。能跑最轻量的副手:Embedding + Whisper + 隐私脱敏。但浏览器工具一开就是 700MB 起步,8GB 会吃紧。适合预算极限、只需纯文字 Agent 的用户。
4499 元 — 新 16GB M4 Mac mini
云端模型 + 全工具(含浏览器)舒适运行。能跑 1-2 个最小的辅助模型。适合不想折腾本地模型、纯 API 派。
5999 元 — 新 24GB M4 Mac mini(甜品点)
全套副手模型一次性拉满。听说看画想记脱敏,全部本地搞定。只比基础款贵 1500 元。 适合想要隐私 + 省 API 费 + 离线能力的大多数人。
12499 元 — 新 48GB M4 Pro Mac mini
副手全套 + 本地 32B 主控成为可能。可以尝试不依赖云端(但要有等 3-5 分钟的心理准备)。适合想试试纯本地 Agent 的技术爱好者。
80000 元+ — 512GB Mac Studio Ultra
400B 级前沿模型本地跑。数据一个字节都不出本机。适合安全极度敏感的场景。
最后:那1500元的差价,值不值?
说到底,24GB 和 16GB 之间只差 1500 元。
这 1500 元买到的是什么?
- 全套本地 AI 副手(听说看画想记脱敏)
- 隐私保护(敏感数据不出本机)
- 断网也能用(出差、飞机上、网络不好的时候)
- 低延迟(本地模型不用等 API 往返)
而如果你选了 48GB 想跑本地主控,多花的 6500 元换来的是——更慢的响应。
这大概是我见过最反直觉的硬件选购逻辑了:
花更多的钱,得到更慢的体验。除非你的需求是“数据绝对不出本机”。
对大多数人来说,24GB Mac mini + 云端 Claude + 本地副手模型,就是当前部署 OpenClaw 的最佳性价比方案。
不用 512GB。不用 48GB。24GB 就够了。
如果你也对这种混合架构的 AI Agent 玩法感兴趣,或者想分享自己的配置心得,欢迎来 云栈社区 一起交流讨论。