找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

336

积分

0

好友

41

主题
发表于 昨天 14:51 | 查看: 19| 回复: 0

谷歌近期推出了专为LiteRT设计的新一代加速器——Qualcomm AI Engine Direct(QNN),旨在显著提升搭载高通骁龙8系列SoC的Android设备的端侧AI性能。该加速器能够实现最高达CPU运算100倍、GPU运算10倍的性能飞跃。

尽管现代Android设备普遍配备了GPU硬件,但谷歌的工程师指出,完全依赖GPU处理AI任务可能会引入性能瓶颈。例如,在设备上运行计算密集型的文生图模型,同时使用基于机器学习的模型处理实时摄像头画面,即便是高端移动GPU也可能不堪重负,导致用户体验卡顿、掉帧。

如今,越来越多的移动设备集成了神经处理单元(NPU),这是专为AI设计的定制加速器,相比GPU,它能够在更低功耗下显著加速AI工作负载。

QNN由谷歌与高通紧密合作开发,用以替代之前的TFLite QNN委托。它通过集成广泛的SoC编译器和运行时环境,并通过简化的API对外暴露,为开发者提供了统一且简化的工作流程。QNN支持90个LiteRT操作,旨在实现完整的模型委托,这是获得最佳性能的关键因素。同时,QNN还包含了针对Gemma、FastLVM等大语言模型的专用内核和优化,进一步提升了其性能。

谷歌在72个机器学习模型上对QNN进行了基准测试,其中64个模型成功实现了完整的NPU委托。结果显示,与CPU执行相比性能提升高达100倍,与GPU相比提升达10倍。

在高通最新的旗舰SoC——骁龙8 Elite Gen 5上,性能提升尤为显著:超过56个模型在NPU上的运行时间低于5毫秒,而在CPU上仅有13个模型能达到这一水平。这解锁了大量此前难以实现的实时AI体验。

谷歌工程师还开发了一款概念应用,该应用利用了经过优化的苹果FastVLM-0.5B视觉编码模型。该应用几乎可以即时解读摄像头的实时画面。在骁龙8 Elite Gen 5的NPU上,对于1024×1024的图像,其首次令牌生成时间(TTFT)仅需0.12秒,预填充速度超过11,000令牌/秒,解码速度超过100令牌/秒。苹果的模型通过int8权重量化和int16激活量化进行了优化。据谷歌工程师介绍,这是释放NPU最强大、高速int16内核的关键。

目前,QNN仅支持有限的Android硬件子集,主要是搭载骁龙8和骁龙8+ SoC的设备。对于希望将TensorFlow Lite模型高效部署到移动端的开发者,可以从GitHub下载LiteRT并参考相关的NPU加速指南开始实践。

您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区(YunPan.Plus) ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-3 14:19 , Processed in 0.062139 second(s), 37 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 CloudStack.

快速回复 返回顶部 返回列表