3423 积分	0 好友	453 主题

1.8B端侧翻译模型硬刚72B：腾讯混元Hy-MT1.5离线跑赢云端大模型

发表于 3 小时前 | 查看: 3| 回复: 0

手机芯片能否直接跑赢云端百G大模型？腾讯混元团队用半年时间给出了答案：通过极致的量化技术，他们在翻译任务上实现了这一突破。

Hy-Series模型演进路线图，展示从底层量化算法突破到多模态翻译模型端侧全覆盖的关键节点，包括Sherry量化算法与1.25-bit核心技术

腾讯混元团队刚发布了手机端翻译模型 Hy-MT1.5-1.8B-2bit。体积仅574MB，却敢叫板720亿参数的开源模型和主流商业翻译API。具体性能对比如下。

FLORES-200基准测试对比图，柱状图展示HY-MT1.5-1.8B与Baidu、Google、Microsoft等主流翻译模型在XCOMET-XXL得分上的跨级对抗

能打吗？确实能。团队指出，这款模型专为 Arm SME2 架构的手机芯片优化，完全离线运行，数据不上云。

1. 参数少，打得狠

模型基础版是 Hy-MT1.5-1.8B，参数规模仅18亿，但翻译质量全面比肩甚至超越参数远大于它的对手。团队列出的对比对象包括：

就连微软翻译和豆包翻译这类商业API，它也能扳一扳手腕。

轻量级翻译模型能力对比图，左侧展示1.8B参数规模的低算力门槛，右侧对标Tower-Plus-72B等开源旗舰与商业翻译系统，强调40倍跨级性能飞跃

这个效果对比非常直观。一个1.8B模型，另一个是72B，参数相差40倍，但前者体积更小、跑得更好、更快，而且隐私性更强。

这一切要归功于背后的压缩技术。模型原本的 FP16 版本体积为3.3GB，经过量化后被压缩到574MB，压缩比接近6倍。

核心技术叫 Stretched Elastic Quantization（SEQ），可译为“拉伸弹性量化”[1]。有兴趣的话可以看论文了解细节。原理很直接：将模型权重从无数个浮点精度，压缩到只允许取四个值：

-1.5、-0.5、0.5、1.5

配合量化感知蒸馏等技术，压缩后的模型翻译质量几乎无损。他们还提供了一个更极致的版本：1.25-bit 量化，体积仅 440MB。在 HuggingFace 等开源社区可以找到相关资源。

模型规模与翻译质量散点图，横轴为模型大小从440MB到690GB，纵轴为FLORES-200得分，Hy-MT 2bit与1.25bit以蓝色五角星标记，展现出用极小体积实现高分翻译的表现

这款模型的目标场景十分明确：手机端离线部署，让用户在手机上直接使用翻译。它主要针对支持 Arm SME2 指令集的芯片，如 Apple M4 和 vivo X300 这类处理器。模型在手机本地运行翻译，不需要任何网络连接。

手机端离线翻译技术架构图，展示从支持Arm SME2指令集的芯片到数据不出设备的端侧推理流程，涵盖文档、聊天消息与邮件等处理对象，突出隐私安全

这意味着什么？你拍的文档、聊天的消息、收到的邮件等所有私有数据，全都不离开设备。对于注重隐私保护的用户来说，这是非常重要的保障。简单讲，就是拔掉网线，照样能跑，而且速度快。

原文放了一张速度对比图。

翻译推理速度对比图，展示在支持与未支持Arm SME2指令集两种条件下，同一段文本翻译的响应效率差异

对比的对象是 SME2 内核和传统的 Neon 内核。结论是：在 SME2 架构下，2-bit 模型的推理速度快了一大截。快到什么程度？团队没有给出绝对数字，但明确指出 SME2 内核的速度显著优于 Neon 内核。对于实时翻译场景，这个差距至关重要。

团队最后介绍了一个 Android 演示 APK。这个 App 有个模式叫“背景单词提取”：你在手机上刷邮件、看网页、聊微信，不用切换 App，它就能直接提取屏幕上的文字并给出翻译。整个过程全程离线，不收集数据，而且一次下载，永久使用。

演示设备用的是骁龙865（8GB 内存）和骁龙7+ Gen 2 （16GB 内存），都不是最新旗舰芯片，跑起来毫无压力。

该文的核心结论是：大不是强，小才是趋势。574MB 的模型在翻译质量上干掉了 72B 的大模型，同时实现了真正的隐私安全和无网可用。手机端 AI 的拐点，可能比所有人预想的来得更快。感兴趣的读者可以下载官方演示 APK 亲自体验，链接已在原文中提供。

在端侧人工智能技术快速落地的今天，像 Hy-MT1.5 这样将深度学习模型高效部署于移动端的实践，正重新定义我们对“实时翻译”的想象。如果你对模型量化和端侧推理有更多见解，不妨来云栈社区一同探讨。