找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3343

积分

0

好友

457

主题
发表于 2026-2-11 20:09:02 | 查看: 30| 回复: 0

Hugging Face上AngelSlim/HY-1.8B-2Bit模型页面截图

今天,腾讯混元团队在开源实战领域带来了一款面向消费级硬件场景的“极小”模型——HY-1.8B-2Bit。它的等效参数量仅有 0.3B,内存占用低至 600MB,这个体积甚至比一些常见的手机应用还要小。这意味着,开发者可以轻松地将它本地化部署到手机、无线耳机乃至各类智能家居设备中,为端侧AI应用打开了新的想象空间。

HY-1.8B系列模型性能对比散点图

这款模型的核心技术,是基于首个产业级的2比特端侧量化方案。团队通过对先前发布的1.8B小尺寸指令微调模型 HY-1.8B-Instruct 进行 2比特量化感知训练(QAT) ,最终产出了HY-1.8B-2Bit。量化效果显著:对比原始的全精度模型,其等效参数量直接降低了6倍。更关键的是,这种极致的压缩并未牺牲核心能力——模型保留了完整的“思考”能力,能够根据任务复杂度,在长、短两种思维链模式间智能切换。在实际的端侧设备上运行,其文本生成速度更是提升了 2到3倍

我们来看一下它在终端上的实际运行表现。下图展示了原始精度的HY-1.8B模型在llama.cpp上生成一首新春祝福诗的过程,包含了完整的思考链。

HY-1.8B原始精度模型在llama.cpp中生成诗歌的终端界面

而经过2比特量化后的HY-1.8B-2Bit模型,在完成相似创作任务时,响应速度有着肉眼可见的提升。

HY-1.8B-2Bit量化模型在llama.cpp中生成诗歌的终端界面

这里的“比特”是计算机存储的基本单位。通常,模型精度越高(如32比特、16比特),所占内存就越大,性能也相对更好。2比特量化虽然会带来较大的精度损失,但腾讯团队通过QAT技术和先进的量化策略,成功地将性能损失降到了最低。结果显示,这个2比特模型在数学、代码、科学等多个关键指标上的表现,已经能够与4比特的后训练量化(PTQ)版本相媲美。

为了在仅有1.8B的原始模型上实现高质量的2比特量化,混元团队重点采用了量化感知训练策略。此外,他们还通过数据优化、弹性拉伸量化以及训练策略创新这三板斧,全面提升了HY-1.8B-2Bit的“全科”能力。

在部署层面,腾讯提供了HY-1.8B-2Bit的gguf-int2格式模型权重与bf16伪量化权重。与原始模型相比,实际模型大小直降6倍,仅有约300MB,非常适合在资源受限的端侧设备上灵活使用。该模型也已完成在Arm等计算平台上的适配,可充分利用启用Arm SME2技术的移动设备硬件优势。

性能实测数据更有说服力。在苹果MacBook M4芯片上,固定线程数为2进行测试,HY-1.8B-2Bit在不同上下文窗口大小下的首字时延,在1024输入长度内能实现 3~8倍 的加速;在常用的生成窗口下,其生成速度对比原始精度模型也能保持至少 2倍 的稳定加速。

在MacBook M4上不同量化模型的预填充与生成性能对比柱状图

在移动平台联发科天玑9500芯片上的测试同样出色。对比HY-1.8B的Q4量化版本,HY-1.8B-2Bit的首字时延加速了 1.5~2倍,生成速度也提升了约 1.5倍

在联发科天玑9500上Q4与2Bit量化模型的性能对比柱状图

项目资源

结语:模型“瘦身”加速端边侧智能发展

HY-1.8B-2Bit的推出,是腾讯在小型化、高效率人工智能模型探索上的一个重要里程碑。它不仅在有限参数量下逼近了更大模型的性能,更在速度、内存占用和隐私安全之间找到了一个精巧的平衡点。

回顾近期趋势,从去年阿里的Qwen-Embedding-0.6B、谷歌的Gemma 3 0.27B,到今年初腾讯这款0.3B的HY-1.8B-2Bit,小尺寸模型正迎来“百花齐放”的局面。这无疑将极大地丰富开发者的工具箱,推动RAG、语义搜索等智能应用不断下沉至每个人的个人设备中。

当然,当前HY-1.8B-2Bit的能力仍受限于监督微调的训练流程以及基础模型自身的上限。针对这些挑战,混元团队透露,未来的技术重点将转向强化学习与模型蒸馏等方向,以期进一步缩小低比特量化模型与全精度模型之间的能力差距,为端侧AI带来更强大的“芯”动力。





上一篇:Python后端开发手记:同步聊天记录与意图识别分科实践
下一篇:Git分支合并实践:团队协作中Merge与Rebase的选择指南
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 12:58 , Processed in 0.664969 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表