大模型技术的快速发展,不仅带来了顶层的应用创新,也驱动着底层算力基础设施的深刻变革。近期,华为在AI基础算力领域公布了重要进展:其昇腾AI处理器的底层基础软件平台——CANN(Compute Architecture for Neural Networks,神经网络异构计算架构)宣布全面开源开放。
这一举措意味着,昇腾将持续支持开发者在AI模型、算子、内核乃至底层资源等多个层级进行自主优化与自定义开发。通过开放共建,一个新兴的AI算力生态正在快速崛起,旨在改变现有计算架构领域相对固化的格局。
CANN作为连接上层AI训练框架(如PyTorch、TensorFlow、MindSpore等)与底层昇腾AI芯片的桥梁,其核心价值在于让开发者无需深入关心芯片细节,即可高效调用底层算力。随着业界对国产AI算力需求的激增,硬件之上的计算架构软件变得愈发关键。CANN的开源,实质上将定义和优化算力的能力,交还给了广大开发者。
告别“黑盒”:三条路径实现“AI算子开发自由”
深入AI开发,算子(Operator)的开发效率与最终性能始终是核心挑战。实现“算子开发自由”的前提,是广泛的生态兼容。CANN目前已支持与PyTorch、TensorFlow、MindSpore、PaddlePaddle等主流AI框架无缝对接,并开放了图引擎接口,允许开发者自定义计算图结构。

在大模型支持方面,CANN覆盖了包括Llama、Mistral、Phi等海外主流模型,以及Qwen、DeepSeek、GLM等国产大模型家族,总计超过50种,并参与了超过10个大模型开源社区的生态构建。
在此坚实的基础上,针对不同技术背景和性能需求的开发者,开源后的CANN提供了三条清晰的优化路径:

路径一:无缝接入Triton生态,降低迁移成本
对于习惯GPU编程范式,尤其是使用Triton的开发者,CANN实现了深度对接。通过中间表示层的转换,开发者可以用熟悉的Python语法编写算子,原有Triton代码能以极低成本迁移到昇腾NPU上。此外,CANN还引入了提供更细粒度控制的TileLang编程范式,通过类Python语法精准操控NPU核心,应对“内存墙”挑战。
路径二:使用原生Ascend C,榨取极致性能
对于追求极限性能的系统级程序员,昇腾提供了原生武器——Ascend C。这是一种采用C/C++风格的编程语言,它开放了底层资源管理接口。开发者可以直接调用NPU的原子指令,精确控制计算流水线和片上缓存,无论是实现复杂的FlashAttention还是MoE融合算子,都能充分发挥硬件潜力。这要求开发者具备扎实的系统编程和性能优化能力。
路径三:利用CATLASS模板库,快速搭建高性能算子
并非所有场景都需要从零开始。针对深度学习中最常见的矩阵乘法运算,CANN推出了基于Ascend C构建的CATLASS算子模板库。

它将复杂的矩阵乘及其融合算子抽象为可配置模板,开发者无需重写复杂的切分和流水线逻辑,通过简单参数配置即可快速生成适配不同场景的高性能算子。
例如,在支持当前热门的MoE模型时,CANN推出了创新的MLAPO融合算子,将多个独立算子融合为单个高效算子。实测数据显示,在DeepSeek-V3模型的量化场景下,MLAPO算子能将计算耗时从109us降至45us,带来整网性能约20%的提升。

目前,CANN已在开源平台AtomGit上开放了包括CATLASS、ops-math(基础数学)、ops-nn(神经网络)、ops-transformer等在内的多个核心仓库,并提供了集成主流大模型环境的官方容器镜像,开发者可以通过容器指令快速获取开箱即用的开发环境。
架构核心:分层解耦带来的灵活性与可控性
CANN之所以能提供如此灵活的定制能力,根源在于其架构设计上的“分层解耦”理念。

传统的AI软件栈往往是一个紧密耦合的整体,而CANN则被拆解为多个功能正交、可独立演进的组件。从底层驱动、运行时,到上层编译器、加速库,每一层都实现了物理上的松耦合。
这种设计带来了两大显著优势:
- 加速库组件化:算子库被精细拆分为ops-math、ops-nn、ops-cv等独立组件,通信库和图引擎也作为独立组件开放,支持开发者按需引入和自定义。
- 运行时极简化:Runtime层剥离冗余,核心功能最小化,并开放了aclGraph接口支持“图模式下沉”,大幅减少了主机与设备间的交互开销。
分层解耦后,CANN拥有20余个独立安装包,支持各功能独立编译升级。开发者得以在模型、算子、内核、资源等多个层级进行精准优化,在追求极致性能的同时,并未牺牲开发的易用性。
生态启航:开源开放持续进行中
CANN的全面开源,并非简单的技术替代,而是向全球开发者发出的共建“算力多元世界”的邀请。随着代码仓库被广泛fork与star,高校、研究机构及创业公司开始基于CANN优化其AI训练流程,一个不同于传统路径的新兴AI算力生态正在快速成长。
目前,CANN在AtomGit上的开源生态非常活跃,项目下已有27个子仓库,总Star数超过3700,总下载量突破35万。开源的版图仍在扩大,如图引擎等核心组件的开放也在持续推进中。
对于开发者而言,无论是验证一个新想法,还是迁移一个现有模型,现在都可以基于全面开源的CANN快速开始,亲身参与定义下一代AI算力的形态。
相关资源