资深开发者 jtdavies 近日发布了一个颇受关注的开源项目:一款基于 MLX 框架,能在 iPhone、iPad 和 Mac 上完全离线运行 Qwen3.5 大语言模型的聊天应用。他将这个项目称为“100% vibe-coded”,意指它是凭借直觉和快速迭代开发出来的,背后还有经验丰富的开发者指导。说白了,这是一个典型的、经过边写边调最终打磨好用的个人项目。
这款应用解决了许多用户的一个核心痛点:既希望享受大模型聊天的便利,又不想将私密的聊天记录上传至云端服务器。

本地AI的吸引力何在?
你是否有过类似的经历?在地铁、飞机上或网络信号不佳的区域,想向AI咨询一些问题,却频频遭遇“网络连接失败”的提示。或者,当谈论一些涉及隐私的话题时,内心总不免担忧数据会被云端服务器记录和分析。
云端大模型虽然能力强大,但隐私、延迟、费用这三座大山始终是绕不开的限制。而苹果设备,凭借其 M 系列芯片和统一内存架构(UMA),似乎天生就是为本地AI推理而准备的绝佳平台。
MLX 正是苹果官方推出的开源机器学习框架,专为 Apple Silicon 芯片优化。它不像传统框架那样复杂,代码编写简洁,同时又能充分发挥硬件性能。这次的 mlxchat 应用,正是将阿里巴巴的 Qwen3.5 模型通过 MLX 框架,部署并运行在你的 iPhone、iPad 或 Mac 上。应用默认使用 Qwen3.5-4B-MLX-4bit 量化模型,实现完全离线的实时流式聊天对话。
Qwen3.5 + MLX:轻量级模型的实力组合
项目仓库中明确说明,应用不会打包任何模型权重文件。用户需要自行从 Hugging Face 上 mlx-community 命名空间下载所需的量化模型。
当前支持的 Qwen3.5 MLX 量化版本如下(信息源自项目 README):
| 模型名称 |
量化位数 |
| Qwen3.5-0.8B-MLX-4bit |
4-bit |
| Qwen3.5-2B-MLX-4bit |
4-bit |
| Qwen3.5-4B-MLX-4bit(推荐) |
4-bit |
| Qwen3.5-9B-MLX-4bit |
4-bit |
| ...(还包括 8bit、bf16 版本) |
- |
开发者推荐使用 4B 版本,认为其回答质量相比更小的模型有显著提升,且在 iPhone 上的推理延迟也在可接受范围内。9B 版本则更适合内存压力较小的 iPad 设备。Qwen3.5 系列本就是阿里巴巴针对高效推理优化的新一代模型,此次与为苹果生态深度优化的 MLX 框架结合,可谓相得益彰,是探索设备端 人工智能 应用的优秀案例。
核心功能亮点一览
梳理仓库文档,这款应用具备以下核心功能:
1. 真正的本地聊天 + 流式输出
像使用 ChatGPT 一样输入文字,模型会以流式(token by token)的方式实时生成回复,体验流畅。
2. 支持工具调用(Tool Calling)
web_search:通过 Brave Search API 查询最新资讯(需要用户自行配置 API Key)。
url_fetch:直接提供一个网页链接,让模型读取并总结内容。
应用还具备一定的智能预判能力,会对明显需要调用工具的任务进行预取,避免每次对话都走完整的工具调用流程。
3. 视觉输入(Vision)
支持上传图片,兼容对应模型的多模态图像理解能力。虽然纯文本聊天速度更快,但图片对话模式随时可用。
4. 实用的系统提示变量
可在设置中编写自定义系统提示词,并使用 {today}(今日日期)、{location}(位置)、{device}(设备名)、{username}(用户名)等占位符,应用会自动替换为真实信息。
例如,设置提示词为“今天是{today},请帮我规划周末行程”,模型在回复时就会自动带上真实的日期和位置信息。
5. Markdown 渲染 + 原生 Apple UI
模型的回答支持渲染加粗、列表、代码块等 Markdown 格式。应用界面完全采用现代的 Android/iOS 系统设计语言,具备材质和玻璃效果,观感如同原生应用。
6. macOS 专属测试工具(ToolTest)
为开发者提供了便利:可以在 Mac 上通过命令行工具快速调试提示词和工具调用逻辑,无需每次都部署到手机上进行测试。
上手体验指南
对于普通用户(最简单路径)
- 访问 GitHub 仓库
https://github.com/Incept5/mlxchat 下载项目源码。
- 使用 Xcode 16+ 打开项目(部署目标需为 iOS 18+)。
- 编译并运行到你的 iPhone、iPad 或 Mac 上。
- 在应用设置中,配置 Brave Search API Key(可选)和 GPU 内存限制。
- 点击“Select Model”,下载推荐的 Qwen3.5-4B-4bit 模型(下载界面提供进度环、百分比显示和取消按钮,并支持断点续传)。
- 开始离线聊天。
开发者进阶
- 使用 XcodeGen 一键生成项目:
xcodegen generate。
- 修改系统提示词、添加新工具、调整上下文长度等。
- 在 ToolTest 目录下直接执行
swift build && swift run,即可在 Mac 上快速迭代调试。
项目也列出了当前的一些已知限制:
- 9B 模型在 iPhone 上运行内存压力较大,建议在 iPad 上使用。
- 图片对话的速度比纯文本慢。
- 工具调用采取保守策略,并非每次对话都会触发。
与同类产品的差异
在相关讨论中,有人提到了另一款同样支持 Qwen3.5 的 iOS 应用“Locally AI”。本项目的作者坦诚回应:Locally AI 是成熟的商业产品,而 mlxchat 则是一个个人探索型项目,主要目标是更快地体验 MLX 新版本以及测试工具调用功能。
两者的主要区别在于:
- mlxchat 完全开源,代码全部公开在 GitHub,开发者可以自由修改和定制。
- 专注于苹果原生设计语言,用户界面更贴近系统风格。
- 虽自称“vibe-coded”,但功能已相当完整,如下载体验、设置变量、工具预取等都已实现。
目前该项目在 GitHub 上已获得不少关注,属于一个刚刚起步但颇具潜力的开源项目。
结语:设备端AI的未来
体验完这个应用,最深的感触是:大语言模型终于能够实现真正的“私人定制”了。无需担心数据泄露,无需支付订阅费用,也不再受网络环境制约。在 iPhone 上运行 4B 参数的模型,其响应速度已经足以满足日常使用需求;随着硬件不断迭代,未来在移动设备上流畅运行 9B 乃至更大参数的模型将越来越普遍。
正如作者所言,“还有很多想法,但还有份正经工作😎”。然而,他已经为我们打开了一扇门——后续的开发者完全可以基于这个模板,集成语音功能、增加更多工具,将其打造成个性化的生产力利器。如果你也是苹果生态的重度用户,或正在研究设备端大模型(On-device LLM),不妨前往 GitHub 关注这个项目。或许,下一个流行的本地AI应用,就从这里诞生。
如果你想了解更多关于AI、大模型及移动开发的前沿实践,欢迎到 云栈社区 与众多开发者一起交流探讨。