5071 积分	0 好友	695 主题

发消息

[Swift/Kotlin] 开源MLX Chat应用上线：在iPhone上离线运行Qwen3.5，实现本地AI聊天

发表于 2026-3-8 13:38:00 | 查看: 209| 回复: 0

资深开发者 jtdavies 近日发布了一个颇受关注的开源项目：一款基于 MLX 框架，能在 iPhone、iPad 和 Mac 上完全离线运行 Qwen3.5 大语言模型的聊天应用。他将这个项目称为“100% vibe-coded”，意指它是凭借直觉和快速迭代开发出来的，背后还有经验丰富的开发者指导。说白了，这是一个典型的、经过边写边调最终打磨好用的个人项目。

这款应用解决了许多用户的一个核心痛点：既希望享受大模型聊天的便利，又不想将私密的聊天记录上传至云端服务器。

Qwen3.5 MLX Chat App 标识

本地AI的吸引力何在？

你是否有过类似的经历？在地铁、飞机上或网络信号不佳的区域，想向AI咨询一些问题，却频频遭遇“网络连接失败”的提示。或者，当谈论一些涉及隐私的话题时，内心总不免担忧数据会被云端服务器记录和分析。

云端大模型虽然能力强大，但隐私、延迟、费用这三座大山始终是绕不开的限制。而苹果设备，凭借其 M 系列芯片和统一内存架构（UMA），似乎天生就是为本地AI推理而准备的绝佳平台。

MLX 正是苹果官方推出的开源机器学习框架，专为 Apple Silicon 芯片优化。它不像传统框架那样复杂，代码编写简洁，同时又能充分发挥硬件性能。这次的 mlxchat 应用，正是将阿里巴巴的 Qwen3.5 模型通过 MLX 框架，部署并运行在你的 iPhone、iPad 或 Mac 上。应用默认使用 Qwen3.5-4B-MLX-4bit 量化模型，实现完全离线的实时流式聊天对话。

Qwen3.5 + MLX：轻量级模型的实力组合

项目仓库中明确说明，应用不会打包任何模型权重文件。用户需要自行从 Hugging Face 上 mlx-community 命名空间下载所需的量化模型。

当前支持的 Qwen3.5 MLX 量化版本如下（信息源自项目 README）：

模型名称	量化位数
Qwen3.5-0.8B-MLX-4bit	4-bit
Qwen3.5-2B-MLX-4bit	4-bit
Qwen3.5-4B-MLX-4bit（推荐）	4-bit
Qwen3.5-9B-MLX-4bit	4-bit
...（还包括 8bit、bf16 版本）	-

开发者推荐使用 4B 版本，认为其回答质量相比更小的模型有显著提升，且在 iPhone 上的推理延迟也在可接受范围内。9B 版本则更适合内存压力较小的 iPad 设备。Qwen3.5 系列本就是阿里巴巴针对高效推理优化的新一代模型，此次与为苹果生态深度优化的 MLX 框架结合，可谓相得益彰，是探索设备端 人工智能 应用的优秀案例。

核心功能亮点一览

梳理仓库文档，这款应用具备以下核心功能：

1. 真正的本地聊天 + 流式输出
像使用 ChatGPT 一样输入文字，模型会以流式（token by token）的方式实时生成回复，体验流畅。

2. 支持工具调用（Tool Calling）

web_search：通过 Brave Search API 查询最新资讯（需要用户自行配置 API Key）。
url_fetch：直接提供一个网页链接，让模型读取并总结内容。
应用还具备一定的智能预判能力，会对明显需要调用工具的任务进行预取，避免每次对话都走完整的工具调用流程。

3. 视觉输入（Vision）
支持上传图片，兼容对应模型的多模态图像理解能力。虽然纯文本聊天速度更快，但图片对话模式随时可用。

4. 实用的系统提示变量
可在设置中编写自定义系统提示词，并使用 {today}（今日日期）、{location}（位置）、{device}（设备名）、{username}（用户名）等占位符，应用会自动替换为真实信息。
例如，设置提示词为“今天是{today}，请帮我规划周末行程”，模型在回复时就会自动带上真实的日期和位置信息。

5. Markdown 渲染 + 原生 Apple UI
模型的回答支持渲染加粗、列表、代码块等 Markdown 格式。应用界面完全采用现代的 Android/iOS 系统设计语言，具备材质和玻璃效果，观感如同原生应用。

6. macOS 专属测试工具（ToolTest）
为开发者提供了便利：可以在 Mac 上通过命令行工具快速调试提示词和工具调用逻辑，无需每次都部署到手机上进行测试。

上手体验指南

对于普通用户（最简单路径）

访问 GitHub 仓库 https://github.com/Incept5/mlxchat 下载项目源码。
使用 Xcode 16+ 打开项目（部署目标需为 iOS 18+）。
编译并运行到你的 iPhone、iPad 或 Mac 上。
在应用设置中，配置 Brave Search API Key（可选）和 GPU 内存限制。
点击“Select Model”，下载推荐的 Qwen3.5-4B-4bit 模型（下载界面提供进度环、百分比显示和取消按钮，并支持断点续传）。
开始离线聊天。

开发者进阶

使用 XcodeGen 一键生成项目：xcodegen generate。
修改系统提示词、添加新工具、调整上下文长度等。
在 ToolTest 目录下直接执行 swift build && swift run，即可在 Mac 上快速迭代调试。

项目也列出了当前的一些已知限制：

9B 模型在 iPhone 上运行内存压力较大，建议在 iPad 上使用。
图片对话的速度比纯文本慢。
工具调用采取保守策略，并非每次对话都会触发。

与同类产品的差异

在相关讨论中，有人提到了另一款同样支持 Qwen3.5 的 iOS 应用“Locally AI”。本项目的作者坦诚回应：Locally AI 是成熟的商业产品，而 mlxchat 则是一个个人探索型项目，主要目标是更快地体验 MLX 新版本以及测试工具调用功能。

两者的主要区别在于：

mlxchat 完全开源，代码全部公开在 GitHub，开发者可以自由修改和定制。
专注于苹果原生设计语言，用户界面更贴近系统风格。
虽自称“vibe-coded”，但功能已相当完整，如下载体验、设置变量、工具预取等都已实现。

目前该项目在 GitHub 上已获得不少关注，属于一个刚刚起步但颇具潜力的开源项目。

结语：设备端AI的未来

体验完这个应用，最深的感触是：大语言模型终于能够实现真正的“私人定制”了。无需担心数据泄露，无需支付订阅费用，也不再受网络环境制约。在 iPhone 上运行 4B 参数的模型，其响应速度已经足以满足日常使用需求；随着硬件不断迭代，未来在移动设备上流畅运行 9B 乃至更大参数的模型将越来越普遍。

正如作者所言，“还有很多想法，但还有份正经工作😎”。然而，他已经为我们打开了一扇门——后续的开发者完全可以基于这个模板，集成语音功能、增加更多工具，将其打造成个性化的生产力利器。如果你也是苹果生态的重度用户，或正在研究设备端大模型（On-device LLM），不妨前往 GitHub 关注这个项目。或许，下一个流行的本地AI应用，就从这里诞生。

如果你想了解更多关于AI、大模型及移动开发的前沿实践，欢迎到 云栈社区 与众多开发者一起交流探讨。

上一篇：Go 1.21+ 泛型方法正式落地，为代码组织带来新可能
下一篇：103G重构代码课程 Vue3+TypeScript核心精讲课程小码哥带你进军VUE新的试炼

Qwen3．5, MLX, iOS, 本地AI, 大语言模型