找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3821

积分

0

好友

527

主题
发表于 前天 13:38 | 查看: 14| 回复: 0

资深开发者 jtdavies 近日发布了一个颇受关注的开源项目:一款基于 MLX 框架,能在 iPhone、iPad 和 Mac 上完全离线运行 Qwen3.5 大语言模型的聊天应用。他将这个项目称为“100% vibe-coded”,意指它是凭借直觉和快速迭代开发出来的,背后还有经验丰富的开发者指导。说白了,这是一个典型的、经过边写边调最终打磨好用的个人项目。

这款应用解决了许多用户的一个核心痛点:既希望享受大模型聊天的便利,又不想将私密的聊天记录上传至云端服务器。

Qwen3.5 MLX Chat App 标识

本地AI的吸引力何在?

你是否有过类似的经历?在地铁、飞机上或网络信号不佳的区域,想向AI咨询一些问题,却频频遭遇“网络连接失败”的提示。或者,当谈论一些涉及隐私的话题时,内心总不免担忧数据会被云端服务器记录和分析。

云端大模型虽然能力强大,但隐私、延迟、费用这三座大山始终是绕不开的限制。而苹果设备,凭借其 M 系列芯片和统一内存架构(UMA),似乎天生就是为本地AI推理而准备的绝佳平台。

MLX 正是苹果官方推出的开源机器学习框架,专为 Apple Silicon 芯片优化。它不像传统框架那样复杂,代码编写简洁,同时又能充分发挥硬件性能。这次的 mlxchat 应用,正是将阿里巴巴的 Qwen3.5 模型通过 MLX 框架,部署并运行在你的 iPhone、iPad 或 Mac 上。应用默认使用 Qwen3.5-4B-MLX-4bit 量化模型,实现完全离线的实时流式聊天对话。

Qwen3.5 + MLX:轻量级模型的实力组合

项目仓库中明确说明,应用不会打包任何模型权重文件。用户需要自行从 Hugging Face 上 mlx-community 命名空间下载所需的量化模型。

当前支持的 Qwen3.5 MLX 量化版本如下(信息源自项目 README):

模型名称 量化位数
Qwen3.5-0.8B-MLX-4bit 4-bit
Qwen3.5-2B-MLX-4bit 4-bit
Qwen3.5-4B-MLX-4bit(推荐) 4-bit
Qwen3.5-9B-MLX-4bit 4-bit
...(还包括 8bit、bf16 版本) -

开发者推荐使用 4B 版本,认为其回答质量相比更小的模型有显著提升,且在 iPhone 上的推理延迟也在可接受范围内。9B 版本则更适合内存压力较小的 iPad 设备。Qwen3.5 系列本就是阿里巴巴针对高效推理优化的新一代模型,此次与为苹果生态深度优化的 MLX 框架结合,可谓相得益彰,是探索设备端 人工智能 应用的优秀案例。

核心功能亮点一览

梳理仓库文档,这款应用具备以下核心功能:

1. 真正的本地聊天 + 流式输出
像使用 ChatGPT 一样输入文字,模型会以流式(token by token)的方式实时生成回复,体验流畅。

2. 支持工具调用(Tool Calling)

  • web_search:通过 Brave Search API 查询最新资讯(需要用户自行配置 API Key)。
  • url_fetch:直接提供一个网页链接,让模型读取并总结内容。
    应用还具备一定的智能预判能力,会对明显需要调用工具的任务进行预取,避免每次对话都走完整的工具调用流程。

3. 视觉输入(Vision)
支持上传图片,兼容对应模型的多模态图像理解能力。虽然纯文本聊天速度更快,但图片对话模式随时可用。

4. 实用的系统提示变量
可在设置中编写自定义系统提示词,并使用 {today}(今日日期)、{location}(位置)、{device}(设备名)、{username}(用户名)等占位符,应用会自动替换为真实信息。
例如,设置提示词为“今天是{today},请帮我规划周末行程”,模型在回复时就会自动带上真实的日期和位置信息。

5. Markdown 渲染 + 原生 Apple UI
模型的回答支持渲染加粗、列表、代码块等 Markdown 格式。应用界面完全采用现代的 Android/iOS 系统设计语言,具备材质和玻璃效果,观感如同原生应用。

6. macOS 专属测试工具(ToolTest)
为开发者提供了便利:可以在 Mac 上通过命令行工具快速调试提示词和工具调用逻辑,无需每次都部署到手机上进行测试。

上手体验指南

对于普通用户(最简单路径)

  1. 访问 GitHub 仓库 https://github.com/Incept5/mlxchat 下载项目源码。
  2. 使用 Xcode 16+ 打开项目(部署目标需为 iOS 18+)。
  3. 编译并运行到你的 iPhone、iPad 或 Mac 上。
  4. 在应用设置中,配置 Brave Search API Key(可选)和 GPU 内存限制。
  5. 点击“Select Model”,下载推荐的 Qwen3.5-4B-4bit 模型(下载界面提供进度环、百分比显示和取消按钮,并支持断点续传)。
  6. 开始离线聊天。

开发者进阶

  • 使用 XcodeGen 一键生成项目:xcodegen generate
  • 修改系统提示词、添加新工具、调整上下文长度等。
  • 在 ToolTest 目录下直接执行 swift build && swift run,即可在 Mac 上快速迭代调试。

项目也列出了当前的一些已知限制:

  • 9B 模型在 iPhone 上运行内存压力较大,建议在 iPad 上使用。
  • 图片对话的速度比纯文本慢。
  • 工具调用采取保守策略,并非每次对话都会触发。

与同类产品的差异

在相关讨论中,有人提到了另一款同样支持 Qwen3.5 的 iOS 应用“Locally AI”。本项目的作者坦诚回应:Locally AI 是成熟的商业产品,而 mlxchat 则是一个个人探索型项目,主要目标是更快地体验 MLX 新版本以及测试工具调用功能。

两者的主要区别在于:

  • mlxchat 完全开源,代码全部公开在 GitHub,开发者可以自由修改和定制。
  • 专注于苹果原生设计语言,用户界面更贴近系统风格。
  • 虽自称“vibe-coded”,但功能已相当完整,如下载体验、设置变量、工具预取等都已实现。

目前该项目在 GitHub 上已获得不少关注,属于一个刚刚起步但颇具潜力的开源项目。

结语:设备端AI的未来

体验完这个应用,最深的感触是:大语言模型终于能够实现真正的“私人定制”了。无需担心数据泄露,无需支付订阅费用,也不再受网络环境制约。在 iPhone 上运行 4B 参数的模型,其响应速度已经足以满足日常使用需求;随着硬件不断迭代,未来在移动设备上流畅运行 9B 乃至更大参数的模型将越来越普遍。

正如作者所言,“还有很多想法,但还有份正经工作😎”。然而,他已经为我们打开了一扇门——后续的开发者完全可以基于这个模板,集成语音功能、增加更多工具,将其打造成个性化的生产力利器。如果你也是苹果生态的重度用户,或正在研究设备端大模型(On-device LLM),不妨前往 GitHub 关注这个项目。或许,下一个流行的本地AI应用,就从这里诞生。

如果你想了解更多关于AI、大模型及移动开发的前沿实践,欢迎到 云栈社区 与众多开发者一起交流探讨。




上一篇:Go 1.21+ 泛型方法正式落地,为代码组织带来新可能
下一篇:103G重构代码课程 Vue3+TypeScript核心精讲课程 小码哥带你进军VUE新的试炼
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-10 09:44 , Processed in 0.484859 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表