2025年临近年底,算力已成为全民讨论的热点。在这一背景下,国产GPU的发展进程、以及未来国产大模型与应用能否实现“主权AI”,成为业界亟待解答的核心问题。刚刚上市一周的摩尔线程,为观察这些问题提供了一个关键窗口。
“算力即国力。”摩尔线程掌舵者张建中在首届MUSA开发者大会的主题演讲中,分享了这一思考。MUSA是摩尔线程自研的GPU统一计算架构,如同国产GPU的“底层操作系统”,决定了芯片的计算方式、软件开发与生态构建路径。本次大会不仅是摩尔线程首次系统性对外展示其核心研究成果,也通过一系列新品发布,描绘出国产算力发展的独特路径。
国产GPU实现万卡真工程
过去几年,国产GPU常被质疑的两个核心问题是:能否稳定扩展到万卡规模,并持续运行数月?摩尔线程此次发布给出了令人满意的答卷,其“夸娥”(KUAE)万卡智算集群是关键所在。

据现场介绍,夸娥集群成功攻克了万卡级硬件筛选、高速互联与系统级容错等高难度工程挑战,具备全精度、全功能的通用计算能力,可在万卡规模下实现高效稳定的AI训练与推理。
其核心突破指标包括:浮点运算能力达10Exa-Flops;在Dense大模型上训练算力利用率(MFU)达60%,MOE大模型上达40%;有效训练时间占比超90%;训练线性扩展效率达95%。该集群与国际主流生态高度兼容,并在多项指标上展现出能效优势。
具体来看:
- 训练侧:基于原生FP8能力完整复现了顶尖大模型训练流程,多项关键精度指标达到国际主流水平。通过优化实现了Flash Attention算力利用率超95%,并突破了FP8累加精度等关键技术瓶颈,充分释放了国产GPU在大模型训练中的性能潜力。
- 推理侧:联合硅基流动,经过系统级工程优化与FP8精度加速,在DeepSeek R1 671B全量模型上实现突破:MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,树立了国产推理性能新标杆。
- 文生视频:夸娥集群在文生视频单机推理性能上实现领先,支持原生FP8推理且内容生成精度无损。
值得注意的是,随着大模型迈向万亿参数、集群规模扩展至十万卡级,训练精度正从FP16向FP8/FP4演进,夸娥集群的FP8能力恰逢其时。
在稳定性方面,摩尔线程研发了夸娥万卡训练容错系统(KUAE RAS),用于保障大规模训练的稳定,目标ETTR达到99%。该系统支持训练异常的在线诊断,可动态采集性能指标与硬件状态,实现问题根因的可视化定位,具有无代码侵入、低开销的特点。其系统守护软件可提升客户万卡训练成功率30%。这些扎实的工程指标,标志着国产万卡集群已达到国际主流水平。
坚持“全功能GPU”技术路线
摩尔线程始终坚持“全功能GPU”的发展路线。张建中阐述了其底层逻辑:AI、图形、仿真与科学计算正在重新融合,未来的智能系统不再区分“算AI”还是“跑图形”,单一场景的芯片将被系统级需求淘汰。
“全功能GPU”意味着芯片能同时处理图形图像渲染、AI张量计算、物理仿真和超高清视频编解码等多种异构任务,兼具高度通用性与生态承载力。目前全球仅英伟达等少数企业具备该能力,摩尔线程的切入填补了国内空白。
更关键的是,这一理念被深度整合进了其MUSA架构中。MUSA是覆盖从芯片、指令集到编程模型、驱动框架的全栈技术体系,基于此,摩尔线程实现了单芯片同时支持AI计算、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破。
与采用GPGPU或ASIC路线的单一AI加速卡相比,MUSA架构在计算通用性、技术演进能力、生态兼容性和市场适应性上更具优势。它实现了架构级统一:所有场景均基于同一套指令集与软件栈,覆盖AI训练/推理/图形/仿真/科学计算。

大会还首次展示了下一代全功能GPU架构——“花港”。该架构支持从FP4到FP64的全精度计算,算力密度提升50%,效能提升10倍。它集成了新一代异步编程模型,优化任务调度;自研MTLink高速互联技术支持十万卡以上规模集群扩展;其内置的AI生成式渲染架构与增强的硬件光线追踪引擎,实现了图形与AI的深度融合,并完整支持DirectX 12 Ultimate。
这表明摩尔线程选择了一条着眼于长远复利的技术路线,旨在应对未来日益复杂和融合的算力需求。基于“花港”架构,未来将推出面向万卡智算集群的高性能AI训推一体“华山”芯片,以及专注高性能图形渲染的“庐山”芯片。
图形与AI原生融合,指向未来算力爆发点
图形计算始终是消费级GPU的核心。摩尔线程展示了其在图形领域的持续进化,自主研发了AI生成式渲染架构(MTAGR 1.0)和硬件光线追踪单元(RTU),标志着国产GPU正式进入实时光线追踪与智能生成渲染时代。
- 消费级显卡MTT S80:自2022年发布以来已完成36版驱动迭代,实现对China Top 50热门游戏的100%兼容,在3DMark Fire Strike测试中性能提升至最初的3.4倍。它是国内首款支持Windows及DirectX 11/12的消费级显卡。
- 专业显卡MTT X300:深度兼容X86、ARM、LoongArch等CPU架构,支持Windows及众多国产Linux系统,可稳定运行Unreal Engine、Unity等主流引擎,支持8K多显输出,满足数字地球、仿真模拟等高端需求。
通过“图形+AI”融合创新,摩尔线程正打破传统生态壁垒。这一布局具有前瞻性,因为未来的AI不仅限于服务器,还将涉及“看世界、进物理”的环节。具身智能、数字孪生、机器人等下一轮算力爆发点,都离不开强大的图形计算能力。
重新定义AIPC:从工具集合到个人智算系统
在本次大会上,摩尔线程还发布了面向个人开发者的AI硬件产品——MTT AIBOOK,给出了其对AIPC的独特定义:让个体进化为“超级个体”。
AIBOOK的核心是构建个人智算系统,而非简单的AI应用集合。其底座是摩尔线程自研的端侧智能SoC芯片“长江”,提供50TOPS异构AI算力,原生支持混合精度计算。搭配基于Linux内核的MT AIOS操作系统,它预置了完整的AI开发环境与工具链。

AIBOOK是一款“多系统AI工作站”,除了本机AIOS,还能通过虚拟化同时运行Windows与Android应用生态。其预置的数字人智能体“小麦”,依托全功能GPU可实现2K高清、低延迟交互,并可灵活调用MUSAChat-72B等大模型。同时,设备预装了悟界·Emu3.5等多模态模型,文本生图等能力开箱即用。
共建国产GPU开发生态
生态是GPU行业最深的护城河。为此,摩尔线程宣布成立“摩尔学院”,并推出“国产计算生态与AI教育共建行动”,目前已走进全国200多所高校,覆盖超10万名学生,旨在通过产教融合培养人才。
同时,摩尔线程正在构建“MUSA生态中心”,作为与开发者、合作伙伴协同创新的枢纽,提供核心技术支撑、成果展示、人才培养和创新孵化等服务。此外,一系列MUSA开发者计划也已启动,旨在系统性壮大国产GPU的开发生态。

总结
在“主权AI”时代,算力已成为国力的重要体现。国产GPU作为基础底座,其发展关乎自主创新的大局。从本次MUSA开发者大会可以看出,摩尔线程通过“全功能GPU”的战略方向、MUSA及“花港”新架构的突破、图形与AI的原生融合,以及对AIPC的重新定义,展现出国产算力发展的强劲势头与独特路径。这不仅需要硬件技术的持续攻坚,更有赖于一个繁荣、开放、协同的软件与开发生态作为支撑。