本文由半导体产业纵横编译自eetimes
过去十年,英伟达一直主导着用于机器学习/人工智能领域的高性能计算机芯片市场。凭借其专有的CUDA软件生态和快速的硬件迭代,英伟达几乎成为了AI处理器的代名词。
然而,市场格局正在悄然改变。随着行业向更专业化、高性价比的硬件方向发展,英伟达面临的挑战正变得多元。其强劲的销售和高利润率部分得益于台积电先进封装(CoWoS)产能有限导致的供应稀缺。随着台积电计划到2026年将产能扩大,供应限制将逐步缓解,这为其他竞争者提供了机会。
更大的风险在于应用重心的转移。业界正从大规模训练基础模型,转向优先发展大规模、高性价比的推理部署。在高容量推理场景中,运营成本往往超过一次性训练成本,这促使主要的云服务提供商 开始寻求降低对英伟达生态的依赖。
云服务巨头:从客户转向“竞争者”
北美四大超大规模数据中心运营商——谷歌、亚马逊AWS、微软和Meta,正在集体转向定制芯片,以确保竞争优势并控制成本。
- 谷歌:其张量处理单元(TPU)已发展至第七代Ironwood,针对推理进行了优化,拥有大量共享内存,并能将多达9216个芯片互联成SuperPOD,以应对大型混合专家模型的内存挑战。有迹象表明,谷歌可能将TPU作为商业产品对外提供。
- 亚马逊AWS:持续优化其自研芯片的性价比,以吸引寻求英伟达替代方案的企业。其Trainium芯片宣称可将训练成本降低高达50%,而采用3nm工艺的Graviton5芯片则在通用计算任务上提升了性能。AWS的软件栈(如Neuron SDK)也在提升其生态吸引力。
- Meta:其Meta训练和推理加速器专为Facebook、Instagram等平台的高容量推荐任务设计。通过将这类任务卸载到自研芯片,Meta得以将宝贵的英伟达H100资源用于前沿AI研究。
- 微软:其定制芯片项目遭遇延期,下一代AI芯片Maia预计推迟至2026年发布。这使其在短期内仍需大量采购英伟达和AMD的高端GPU来满足需求。
AMD:定位为“开放的替代选择”
在云厂商自研芯片的浪潮中,AMD正巩固其作为市场关键“第二供应商”的地位。AMD的Instinct MI300X芯片配备了高达192GB的HBM3显存,超越了英伟达的H100,使其在大模型推理场景中具备成本优势。
此前制约AMD的软件生态问题正通过OpenAI的Triton编译器 等工具得到缓解。Triton允许开发者编写与硬件无关的高性能代码,简化了从CUDA生态迁移的难度,降低了厂商的转换成本。
未来挑战:竞争延伸至芯片互连
下一个主要的竞争前沿将出现在半导体芯片的连接领域。随着电气互连逼近物理极限,行业开始转向光学连接。Marvell收购Celestial AI,以及Lightmatter等公司推动的3D光子晶圆技术,都预示着到2026年,光互连可能成为高性能AI集群的新标准。这一转变将使博通、Marvell等互连芯片供应商变得至关重要。
结论
英伟达预计将在2026年前继续保持其在高端模型训练市场的领导地位。然而,在更广阔的大规模推理市场,主导权可能将向主要云厂商的定制化芯片倾斜。人工智能计算的未来图景,将不再是单一公司的垄断,而是由专业化、高度互联的异构系统共同绘制。英伟达面临的挑战,是如何在这个快速分化的市场中维持其盈利能力和技术影响力。
|