小红

3276 积分	0 好友	452 主题

发消息

[C/C++] 华为CANN神经网络异构计算架构全面开源：拆解AI算力的“黑盒”

发表于 2025-12-20 06:23:56 | 查看: 87| 回复: 0

大模型技术的快速发展，不仅带来了顶层的应用创新，也驱动着底层算力基础设施的深刻变革。近期，华为在AI基础算力领域公布了重要进展：其昇腾AI处理器的底层基础软件平台——CANN（Compute Architecture for Neural Networks，神经网络异构计算架构）宣布全面开源开放。

这一举措意味着，昇腾将持续支持开发者在AI模型、算子、内核乃至底层资源等多个层级进行自主优化与自定义开发。通过开放共建，一个新兴的AI算力生态正在快速崛起，旨在改变现有计算架构领域相对固化的格局。

CANN作为连接上层AI训练框架（如PyTorch、TensorFlow、MindSpore等）与底层昇腾AI芯片的桥梁，其核心价值在于让开发者无需深入关心芯片细节，即可高效调用底层算力。随着业界对国产AI算力需求的激增，硬件之上的计算架构软件变得愈发关键。CANN的开源，实质上将定义和优化算力的能力，交还给了广大开发者。

告别“黑盒”：三条路径实现“AI算子开发自由”

深入AI开发，算子（Operator）的开发效率与最终性能始终是核心挑战。实现“算子开发自由”的前提，是广泛的生态兼容。CANN目前已支持与PyTorch、TensorFlow、MindSpore、PaddlePaddle等主流AI框架无缝对接，并开放了图引擎接口，允许开发者自定义计算图结构。

CANN支持的AI框架

在大模型支持方面，CANN覆盖了包括Llama、Mistral、Phi等海外主流模型，以及Qwen、DeepSeek、GLM等国产大模型家族，总计超过50种，并参与了超过10个大模型开源社区的生态构建。

在此坚实的基础上，针对不同技术背景和性能需求的开发者，开源后的CANN提供了三条清晰的优化路径：

CANN算子开发三条路径

路径一：无缝接入Triton生态，降低迁移成本
对于习惯GPU编程范式，尤其是使用Triton的开发者，CANN实现了深度对接。通过中间表示层的转换，开发者可以用熟悉的Python语法编写算子，原有Triton代码能以极低成本迁移到昇腾NPU上。此外，CANN还引入了提供更细粒度控制的TileLang编程范式，通过类Python语法精准操控NPU核心，应对“内存墙”挑战。

路径二：使用原生Ascend C，榨取极致性能
对于追求极限性能的系统级程序员，昇腾提供了原生武器——Ascend C。这是一种采用C/C++风格的编程语言，它开放了底层资源管理接口。开发者可以直接调用NPU的原子指令，精确控制计算流水线和片上缓存，无论是实现复杂的FlashAttention还是MoE融合算子，都能充分发挥硬件潜力。这要求开发者具备扎实的系统编程和性能优化能力。

路径三：利用CATLASS模板库，快速搭建高性能算子
并非所有场景都需要从零开始。针对深度学习中最常见的矩阵乘法运算，CANN推出了基于Ascend C构建的CATLASS算子模板库。

CATLASS模板库示意图

它将复杂的矩阵乘及其融合算子抽象为可配置模板，开发者无需重写复杂的切分和流水线逻辑，通过简单参数配置即可快速生成适配不同场景的高性能算子。

例如，在支持当前热门的MoE模型时，CANN推出了创新的MLAPO融合算子，将多个独立算子融合为单个高效算子。实测数据显示，在DeepSeek-V3模型的量化场景下，MLAPO算子能将计算耗时从109us降至45us，带来整网性能约20%的提升。

MLAPO性能对比

目前，CANN已在开源平台AtomGit上开放了包括CATLASS、ops-math（基础数学）、ops-nn（神经网络）、ops-transformer等在内的多个核心仓库，并提供了集成主流大模型环境的官方容器镜像，开发者可以通过容器指令快速获取开箱即用的开发环境。

架构核心：分层解耦带来的灵活性与可控性

CANN之所以能提供如此灵活的定制能力，根源在于其架构设计上的“分层解耦”理念。

CANN分层解耦架构图

传统的AI软件栈往往是一个紧密耦合的整体，而CANN则被拆解为多个功能正交、可独立演进的组件。从底层驱动、运行时，到上层编译器、加速库，每一层都实现了物理上的松耦合。

这种设计带来了两大显著优势：

加速库组件化：算子库被精细拆分为ops-math、ops-nn、ops-cv等独立组件，通信库和图引擎也作为独立组件开放，支持开发者按需引入和自定义。
运行时极简化：Runtime层剥离冗余，核心功能最小化，并开放了aclGraph接口支持“图模式下沉”，大幅减少了主机与设备间的交互开销。

分层解耦后，CANN拥有20余个独立安装包，支持各功能独立编译升级。开发者得以在模型、算子、内核、资源等多个层级进行精准优化，在追求极致性能的同时，并未牺牲开发的易用性。

生态启航：开源开放持续进行中

CANN的全面开源，并非简单的技术替代，而是向全球开发者发出的共建“算力多元世界”的邀请。随着代码仓库被广泛fork与star，高校、研究机构及创业公司开始基于CANN优化其AI训练流程，一个不同于传统路径的新兴AI算力生态正在快速成长。

目前，CANN在AtomGit上的开源生态非常活跃，项目下已有27个子仓库，总Star数超过3700，总下载量突破35万。开源的版图仍在扩大，如图引擎等核心组件的开放也在持续推进中。

对于开发者而言，无论是验证一个新想法，还是迁移一个现有模型，现在都可以基于全面开源的CANN快速开始，亲身参与定义下一代AI算力的形态。

相关资源

CANN 官方主页：https://www.hiascend.com/cann
开源项目地址：https://gitcode.com/cann

上一篇：Go集成Milvus向量数据库实战指南：从部署到实现相似性搜索
下一篇：GPU加速的广告召回模型：Wide&Deep架构与压缩倒排索引实践

CANN, 昇腾NPU, AI算力, 高性能计算, 算子开发

[C/C++] 华为CANN神经网络异构计算架构全面开源：拆解AI算力的“黑盒”

告别“黑盒”：三条路径实现“AI算子开发自由”

架构核心：分层解耦带来的灵活性与可控性

生态启航：开源开放持续进行中

相关帖子