作为国产全自主CPU的代表,龙芯在转向自研的LoongArch架构后,其软件生态也在持续获得关键优化。近日,GNU C库(glibc)的一项新补丁就为LoongArch平台带来了显著的性能提升。
这项已合并至代码库的优化,默认为LoongArch64架构启用了透明大内存页(Transparent Huge Pages, THP)对齐的加载段。简单来说,它能使ELF可执行文件的加载段与THP的边界对齐,从而有效减轻快表(TLB)的压力并提升指令获取效率。这对于运行大型二进制程序尤其有益,能带来更稳定的性能表现。
那么,实际效果究竟如何?在龙芯 3A6000 平台上进行的测试给出了答案。在编译Rust编写的Cargo工具时,指令TLB缺失率暴降了72%,同时CPU周期减少了4.7%,实际运行时间(wall time)节省了约4.2%。而在使用LLVM编译Linux内核的测试中,提升更为明显,实际运行时间缩短了约12%。这些数据清晰地表明,这项默认启用THP对齐的编译优化机制,为LoongArch架构带来了实实在在的性能增益。
回顾龙芯近期的进展,其产品线已发展至6000系列。其中,面向桌面的龙芯3A/B系列提供4到8核心选择;而面向服务器的龙芯3C6000系列则提供了从16核到64核的配置。据悉,在2025年,龙芯处理器已在专用服务器、算力服务器等典型应用场景中落地,公司方面也表示希望在今年实现批量销售。
对于更广泛的PC用户而言,去年公布的龙芯3B6600处理器也值得关注。这款8核桌面处理器在工艺不变的基础上,将核心架构从LA664升级至LA864。官方表示,其同频性能相比龙芯3A6000大幅提升30%左右。虽然基础频率预计仍为2.5GHz,但该处理器将掌握单核睿频技术,通常可再提升20%,并争取达到3.0GHz的目标频率。
有消息称,龙芯3B6600的单核与多核性能均可达到Intel第12/13代酷睿中高端产品的水平,即能够媲美i5、i7系列,性能超过当时市场上超过一半的桌面CPU。这标志着国产CPU在通用计算性能上正在快速追赶国际主流水平。

(配图:Intel处理器芯片,可作为性能对比的视觉参考)
从架构设计到系统级内存管理优化,龙芯的技术演进路径愈发清晰。每一次底层软件的适配与优化,都是其构建完整自主生态体系的关键一步。对这类底层技术动态感兴趣的朋友,可以持续关注云栈社区的技术讨论板块,获取更多深度解析。
|