linuxx

4233 积分	0 好友	586 主题

发消息

LiteRT QNN加速器深度解析：为Snapdragon Android设备带来百倍AI性能提升

发表于 2025-12-2 14:51:28 | 查看: 121| 回复: 0

谷歌近期推出了专为LiteRT设计的新一代加速器——Qualcomm AI Engine Direct（QNN），旨在显著提升搭载高通骁龙8系列SoC的Android设备的端侧AI性能。该加速器能够实现最高达CPU运算100倍、GPU运算10倍的性能飞跃。

尽管现代Android设备普遍配备了GPU硬件，但谷歌的工程师指出，完全依赖GPU处理AI任务可能会引入性能瓶颈。例如，在设备上运行计算密集型的文生图模型，同时使用基于机器学习的模型处理实时摄像头画面，即便是高端移动GPU也可能不堪重负，导致用户体验卡顿、掉帧。

如今，越来越多的移动设备集成了神经处理单元（NPU），这是专为AI设计的定制加速器，相比GPU，它能够在更低功耗下显著加速AI工作负载。

QNN由谷歌与高通紧密合作开发，用以替代之前的TFLite QNN委托。它通过集成广泛的SoC编译器和运行时环境，并通过简化的API对外暴露，为开发者提供了统一且简化的工作流程。QNN支持90个LiteRT操作，旨在实现完整的模型委托，这是获得最佳性能的关键因素。同时，QNN还包含了针对Gemma、FastLVM等大语言模型的专用内核和优化，进一步提升了其性能。

谷歌在72个机器学习模型上对QNN进行了基准测试，其中64个模型成功实现了完整的NPU委托。结果显示，与CPU执行相比性能提升高达100倍，与GPU相比提升达10倍。

在高通最新的旗舰SoC——骁龙8 Elite Gen 5上，性能提升尤为显著：超过56个模型在NPU上的运行时间低于5毫秒，而在CPU上仅有13个模型能达到这一水平。这解锁了大量此前难以实现的实时AI体验。

谷歌工程师还开发了一款概念应用，该应用利用了经过优化的苹果FastVLM-0.5B视觉编码模型。该应用几乎可以即时解读摄像头的实时画面。在骁龙8 Elite Gen 5的NPU上，对于1024×1024的图像，其首次令牌生成时间（TTFT）仅需0.12秒，预填充速度超过11，000令牌/秒，解码速度超过100令牌/秒。苹果的模型通过int8权重量化和int16激活量化进行了优化。据谷歌工程师介绍，这是释放NPU最强大、高速int16内核的关键。

目前，QNN仅支持有限的Android硬件子集，主要是搭载骁龙8和骁龙8+ SoC的设备。对于希望将TensorFlow Lite模型高效部署到移动端的开发者，可以从GitHub下载LiteRT并参考相关的NPU加速指南开始实践。

上一篇：React 19与Ariakit实战指南：构建高可访问性交互组件的核心技巧
下一篇：Google Private AI Compute：基于硬件隔离与临时数据设计的隐私AI推理方案

LiteRT, QNN, Android, TensorFlow, 移动人工智能

LiteRT QNN加速器深度解析：为Snapdragon Android设备带来百倍AI性能提升

相关帖子