找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3423

积分

0

好友

453

主题
发表于 3 小时前 | 查看: 3| 回复: 0

手机芯片能否直接跑赢云端百G大模型?腾讯混元团队用半年时间给出了答案:通过极致的量化技术,他们在翻译任务上实现了这一突破。

Hy-Series模型演进路线图,展示从底层量化算法突破到多模态翻译模型端侧全覆盖的关键节点,包括Sherry量化算法与1.25-bit核心技术

腾讯混元团队刚发布了手机端翻译模型 Hy-MT1.5-1.8B-2bit。体积仅574MB,却敢叫板720亿参数的开源模型和主流商业翻译API。具体性能对比如下。

FLORES-200基准测试对比图,柱状图展示HY-MT1.5-1.8B与Baidu、Google、Microsoft等主流翻译模型在XCOMET-XXL得分上的跨级对抗

能打吗?确实能。团队指出,这款模型专为 Arm SME2 架构的手机芯片优化,完全离线运行,数据不上云。

1. 参数少,打得狠

模型基础版是 Hy-MT1.5-1.8B,参数规模仅18亿,但翻译质量全面比肩甚至超越参数远大于它的对手。团队列出的对比对象包括:

  • Tower-Plus-72B(720亿参数)
  • Qwen3-32B(320亿参数)

就连微软翻译和豆包翻译这类商业API,它也能扳一扳手腕。

轻量级翻译模型能力对比图,左侧展示1.8B参数规模的低算力门槛,右侧对标Tower-Plus-72B等开源旗舰与商业翻译系统,强调40倍跨级性能飞跃

这个效果对比非常直观。一个1.8B模型,另一个是72B,参数相差40倍,但前者体积更小、跑得更好、更快,而且隐私性更强。

2. 说下压缩技术

这一切要归功于背后的压缩技术。模型原本的 FP16 版本体积为3.3GB,经过量化后被压缩到574MB,压缩比接近6倍。

核心技术叫 Stretched Elastic Quantization(SEQ),可译为“拉伸弹性量化”[1]。有兴趣的话可以看论文了解细节。原理很直接:将模型权重从无数个浮点精度,压缩到只允许取四个值:

-1.5、-0.5、0.5、1.5

配合量化感知蒸馏等技术,压缩后的模型翻译质量几乎无损。他们还提供了一个更极致的版本:1.25-bit 量化,体积仅 440MB。在 HuggingFace 等开源社区可以找到相关资源。

模型规模与翻译质量散点图,横轴为模型大小从440MB到690GB,纵轴为FLORES-200得分,Hy-MT 2bit与1.25bit以蓝色五角星标记,展现出用极小体积实现高分翻译的表现

3. 跑在手机上,不联网

这款模型的目标场景十分明确:手机端离线部署,让用户在手机上直接使用翻译。它主要针对支持 Arm SME2 指令集的芯片,如 Apple M4 和 vivo X300 这类处理器。模型在手机本地运行翻译,不需要任何网络连接。

手机端离线翻译技术架构图,展示从支持Arm SME2指令集的芯片到数据不出设备的端侧推理流程,涵盖文档、聊天消息与邮件等处理对象,突出隐私安全

这意味着什么?你拍的文档、聊天的消息、收到的邮件等所有私有数据,全都不离开设备。对于注重隐私保护的用户来说,这是非常重要的保障。简单讲,就是拔掉网线,照样能跑,而且速度快。

4. 速度有多快?

原文放了一张速度对比图。

翻译推理速度对比图,展示在支持与未支持Arm SME2指令集两种条件下,同一段文本翻译的响应效率差异

对比的对象是 SME2 内核和传统的 Neon 内核。结论是:在 SME2 架构下,2-bit 模型的推理速度快了一大截。快到什么程度?团队没有给出绝对数字,但明确指出 SME2 内核的速度显著优于 Neon 内核。对于实时翻译场景,这个差距至关重要。

5. 真正的杀手级功能

团队最后介绍了一个 Android 演示 APK。这个 App 有个模式叫“背景单词提取”:你在手机上刷邮件、看网页、聊微信,不用切换 App,它就能直接提取屏幕上的文字并给出翻译。整个过程全程离线,不收集数据,而且一次下载,永久使用。

演示设备用的是骁龙865(8GB 内存)和骁龙7+ Gen 2 (16GB 内存),都不是最新旗舰芯片,跑起来毫无压力。

6. 结尾

该文的核心结论是:大不是强,小才是趋势。574MB 的模型在翻译质量上干掉了 72B 的大模型,同时实现了真正的隐私安全和无网可用。手机端 AI 的拐点,可能比所有人预想的来得更快。感兴趣的读者可以下载官方演示 APK 亲自体验,链接已在原文中提供。

[1] https://arxiv.org/pdf/2602.21233
[2] https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit
[3] https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-2bit-GGUF
[4] https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit
[5] https://huggingface.co/AngelSlim/Hy-MT1.5-1.8B-1.25bit-GGUF

在端侧 人工智能 技术快速落地的今天,像 Hy-MT1.5 这样将 深度学习 模型高效部署于移动端的实践,正重新定义我们对“实时翻译”的想象。如果你对模型量化和端侧推理有更多见解,不妨来云栈社区一同探讨。




上一篇:Karpathy 谈 LLM 能力边界与 Agent 原生经济的三个思考
下一篇:Cursor AI编辑器高危访问控制漏洞 (CVSS 8.2) 可致开发者凭证泄露
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-2 20:51 , Processed in 0.633178 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表