
Yole Group发布的《2025年处理器产业状况》报告揭示了一个标志性事件:2024年GPU的销售额首次超越了CPU。这预示着半导体产业正式进入了一个由加速计算主导的新时代。在此背景下,一个核心问题愈发凸显:当GPU、NPU及各类ASIC加速器逐步承担起大规模并行计算重任时,传统的中央处理器(CPU)会走向边缘吗? 或者说,它能否在新的计算范式中找到自己不可替代的定位?
生成式AI计算重心的转移并未消除对主机处理器的需求,但却从根本上改变了衡量其性能的指标。过去数十年,CPU主要沿着提升通用计算频率与优化推测执行效率的路径演进,以兑现摩尔定律的承诺。然而,在面对训练万亿参数大模型与进行高吞吐量实时推理的严苛需求时,这种通用设计哲学正遭遇能效比和I/O瓶颈的双重夹击。
行业正在重新定义CPU在AI集群中的角色。 它正从一个单纯的控制逻辑单元,演变为异构计算系统的核心调度中枢。如今的CPU不仅需要提供大容量内存支持,甚至在某些场景下直接承担推理任务。这种角色的转变,不仅在重构底层的技术架构,也深刻地影响着市场格局与资本流向,其影响从数据中心一直延伸至边缘设备。

01 CPU的困境与“转型”
在传统的以CPU为中心的计算架构中,数据处理流程通常由运行在CPU上的软件栈进行调度,数据需要在网络接口、CPU内存和深度学习加速器之间频繁搬运。这种基于软件的数据控制机制在面对高强度AI工作负载时,其效率瓶颈暴露无遗。主要问题体现在并行命令冲突与数据路径拥塞,这直接限制了后端昂贵加速器的利用率,导致硬件资源闲置,推高了系统的整体功耗与总拥有成本(TCO)。
更深层次的技术矛盾在于处理器微架构的设计理念。现代CPU普遍依赖“推测执行”技术,通过分支预测提前执行指令以维持流水线高效运转,这种机制在处理逻辑复杂的通用程序时效果显著。然而,AI与机器学习负载主要由大规模的向量与矩阵运算构成,其内存访问模式往往呈现高度不规则性。在这种场景下,推测执行极易发生预测错误,导致流水线被频繁清空。这些被丢弃的无效计算不仅没有产出,反而造成了额外的能源消耗与延迟。
为应对通用架构在AI负载下的局限性,处理器行业正经历第一维度的革新:微架构层面的“去推测化”。近期获得专利的“基于时间的确定性执行模型”代表了一种新思路。该模型摒弃了复杂的推测机制,引入带有时间计数器的向量协处理器,采用静态调度策略。指令仅在数据依赖完全解决、操作数就绪的确定时刻,才会被派发至执行单元。
由于执行顺序和时间是预先规划且确定的,芯片设计可以省去复杂的寄存器重命名和乱序执行控制逻辑,从而在处理矩阵计算等任务时,以更低的晶体管开销和功耗实现高可扩展性。这种确定性执行模型在保持与RISC-V等标准指令集兼容的同时,从底层适配了AI计算对高吞吐量与低延迟的刚性需求。
第二维度的革新则是系统级架构的“专用化分流”。为解决I/O瓶颈,业界开始探索将网络排序、服务质量管理和数据预处理等功能从主机CPU的软件栈中剥离,下沉至专用硬件。这种被称为“网络附加处理单元”(NAPU)的设计,通过在处理器内部集成DSP核心、视频引擎及AI优化的网络接口,实现了数据路径的硬件级加速。
这不仅释放了通用CPU核心的算力,使其更专注于复杂逻辑调度,也大幅减少了数据在组件间的无效移动。此外,主流x86处理器也通过集成AMX等专用加速指令集进行自我进化,优化对bf16、int8等低精度数据类型的处理效率,从而在不依赖外部加速器的情况下,提升CPU自身执行矩阵运算的能力。

02 AI时代,CPU的应用场景
技术架构的演进直接映射到市场需求的结构性变化上。尽管训练端对GPU的需求持续火热,但推理端市场对成本与能效的敏感,为新型CPU开辟了广阔空间。据Future Market Insights预测,美国数据中心CPU需求将保持7.4%的复合年增长率。这并非源于对传统通用算力的简单需求,而是AI应用落地过程中精打细算的“经济账”所驱动的。
在推理场景中,并非所有任务都需要昂贵的GPU集群。对于参数量在7B至13B的中小模型,或是单用户的实时交互请求,现代服务器CPU已能提供足够的吞吐量。英特尔数据显示,双路服务器在运行特定规模的Llama模型时,可达到满足实时阅读速度的Token生成率。
更为关键的是,统计表明公有云环境中存在大量利用率低于20%的闲置CPU资源。利用这些已部署的通用算力进行AI推理,相比额外采购专用加速器,具有显著的总体拥有成本优势。 因此,在长尾应用和非高并发场景下,CPU正成为AI推理的主力之一,这种“够用即经济”的逻辑支撑了数据中心CPU市场的持续需求。
除了直接承担推理任务,AI大模型对内存容量的极致渴求也重塑了CPU的价值定位。 随着模型参数量突破万亿级别,GPU显存容量日益成为制约推理规模的瓶颈。此时,CPU所搭载的大容量主内存,通过CXL等高速互联技术与GPU共享,实际上充当了加速器的扩展缓存或“L4级”存储。
在英伟达的GH/GB系列及华为昇腾的超节点方案中,高性能CPU及其大容量DDR内存已成为支撑大模型推理稳定运行的关键基础设施。这意味着市场对服务器CPU的评价标准正在转变,内存通道数量、带宽以及与加速器的互联速度,变得比单纯的核心频率更为重要。
将视野扩展至边缘计算与终端设备,市场对“异构协同”的需求已超越单一芯片的峰值性能。在具身智能、智能终端等领域,系统设计遵循严格分工:CPU负责低延迟的逻辑控制与实时交互,GPU处理高并发计算,NPU则接管持续运行的背景任务。
行业分析指出,在语音转文字、复杂逻辑调度及实时运动控制等场景中,CPU的即时响应能力优于需要批量处理才能发挥效能的GPU。例如在机器人领域,x86 CPU凭借其在工业控制领域的深厚软件生态积累,搭配嵌入式GPU的主控方案仍是主流选择。这种趋势促使CPU必须具备更强的异构协同能力,能够高效地将特定负载卸载给NPU或GPU,同时保持对全局任务的精准调度与资源管理。

03 AI CPU:巨头博弈与新兴势力
在技术转型与市场需求的双重驱动下,处理器产业的竞争版图正在被重绘。一方面,专注于AI专用架构的初创公司崭露头角;另一方面,传统巨头也在积极调整战略,加速生态融合。
以色列芯片企业NeuReality是专用化趋势的代表。该公司近期完成了3500万美元的A轮融资,其商业目标直指AI推理服务器市场。NeuReality推出的NR1芯片本质上是对传统CPU架构的一次重构,它被定义为“网络附加处理单元”。该芯片集成了Arm Neoverse核心,但其核心竞争力在于异构集成的多个通用DSP核心、音频DSP核心及视频引擎。
通过这种硬件设计,NeuReality旨在解决传统CPU处理AI数据流时的瓶颈,将网络排序、数据同步等任务硬件化。其宣称相较于传统架构,能将AI应用的总拥有成本优化10倍。这种专用化芯片的出现,标志着市场开始接受由专用宿主处理器(而非通用CPU)来管理AI计算流水线的新理念。
与此同时,传统芯片巨头正通过资本与技术合作来巩固其生态地位。2025年9月,英伟达宣布向英特尔投资并开展基础设施合作,这一举动信号意义强烈。尽管英伟达在加速计算领域占据主导,但其对x86生态的巨额投资表明,在可预见的未来,高性能x86 CPU作为异构集群的通用底座与生态入口,其战略价值依然不可替代。
在另一端,Arm架构正持续冲击服务器市场。数据显示,Arm架构CPU在服务器市场的份额稳步上升,预计2025年将占据全球服务器出货量的21%以上。这一增长不仅得益于AWS等云厂商自研Graviton芯片的推动,也受益于富士通等厂商的布局。富士通与欧洲云服务商Scaleway的合作,旨在利用基于Arm的CPU平台构建高能效AI推理环境,在绿色计算与低成本推理领域开辟新赛道。
然而,互联网大厂的实际部署策略也揭示了市场的复杂性。尽管自研Arm芯片在成本上具优势,但在核心的AI训练集群中,为保证软件生态的绝对兼容性与稳定性,x86 CPU仍是首选。这表明,未来的处理器市场将进入一个x86与Arm并存、通用CPU与专用AI处理器互补、CPU与各类加速器深度协同的复杂多元生态阶段。
在这一格局下,CPU厂商的核心竞争力将不再仅取决于核心数量或主频,而更在于其架构是否足够开放与灵活,能否高效融入异构计算流水线,并为日益多样化的AI负载提供最具经济效益的算力解决方案。