找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2579

积分

0

好友

361

主题
发表于 前天 02:50 | 查看: 11| 回复: 0

LLM推理硬件挑战与研究机会

大型语言模型(LLM)推理的难度正日益凸显。其底层 Transformer模型 的自回归解码阶段,使得 LLM 推理与训练有了本质上的区别。受近期人工智能发展趋势的影响,当前面临的主要挑战已从计算能力转向了内存和互连。

为了应对这些挑战,Google的Xiaoyu Ma和David Patterson重点指出了四个架构研究方向:能提供10倍内存容量且带宽堪比HBM的高带宽闪存;旨在实现高内存带宽的近内存处理与3D内存逻辑堆叠;以及用于加速通信的低延迟互连。尽管研究重心在于数据中心AI,但文中也探讨了这些方案在移动设备上的适用性。

引言

计算机体系结构的研究与实践之间似乎出现了裂痕。有学者指出,业界在顶级体系结构会议上的论文占比已从1976年的约40%降至2025年的不足4%。为了重新弥合这种联系,我们提出了一些研究方向,若能取得进展,将有助于解决AI行业面临的一些最严峻的硬件挑战。

LLM推理正处在一个关键节点。硬件的快速迭代曾是AI进步的驱动力,而未来5-8年,推理芯片的年销售额预计将增长4-6倍。虽然训练展现了AI的能力上限,但推理的成本才真正决定了其经济可行性。随着模型使用量激增,企业维持最先进模型的成本变得异常高昂。

更严峻的是,新的技术趋势正在使推理变得更加困难,对资源提出了更高要求:

  • 专家混合模型:MoE使用数十到数百个专家进行选择性调用,这种稀疏性让模型规模大幅增长,同时也对推理时的内存和通信带来了巨大压力。
  • 推理模型:这种“先思考后回答”的技术会生成大量中间“思考”令牌,显著增加了生成延迟并占用大量内存。
  • 多模态:从文本生成扩展到图像、音频和视频,更大的数据类型需要更多资源。
  • 长上下文:更长的上下文窗口有助于提升回答质量,但也同步增加了计算和内存需求。
  • 检索增强生成:RAG通过访问外部知识库来增强回答,这同样增加了资源消耗。
  • 扩散模型:与自回归逐词生成不同,扩散模型一步生成所有标记然后迭代去噪,这会主要增加计算需求。

不断扩张的市场与日益增长的挑战共同表明,在LLM推理硬件领域进行创新,既是巨大的机遇,也是迫切的需求。

当前LLM推理硬件及其效率低下之处

我们首先回顾LLM推理的基础知识及其在主流AI架构中的主要瓶颈,这里主要关注数据中心场景。移动设备上的LLM受到不同限制,需要不同的解决方案。

LLM的核心是Transformer,其推理包含两个特性迥异的阶段:预填充解码。如图1所示,预填充阶段并行处理所有输入令牌,类似于训练,通常受计算限制。解码阶段则是顺序生成输出令牌(自回归),因此受内存限制。连接两者的KV缓存,其大小与输入输出序列长度成正比。尽管图中两者同时出现,但它们在实践中常被解耦,运行在不同服务器上,以便应用批处理等软件优化来降低解码的内存占用。

Transformer模型LLM推理的预填充与解码阶段

GPU和TPU是数据中心常用的训练与推理加速器。迄今为止,还没有专门为LLM推理设计的GPU/TPU。由于解码阶段与训练差异巨大,当前的通用加速器在解码时面临两大挑战,导致效率低下。

解码挑战一:内存

自回归解码使推理天生受内存限制,而新的软件趋势加剧了这一挑战。反观硬件发展,却呈现出不同的轨迹。

  1. AI处理器面临内存墙:当前数据中心GPU/TPU依赖高带宽内存(HBM),将多个HBM堆栈连接到单个加速器ASIC上(图2和表1)。然而,内存带宽的增长速度远低于计算能力(FLOPS)的提升。例如,NVIDIA GPU的FLOPS在十年间增长了80倍,而带宽仅增长17倍,且这一差距还在扩大。
    高带宽内存HBM的封装结构与历代规格
  2. HBM成本日益高昂:如图3(a)所示,从2023年到2025年,单个HBM堆栈的每GB容量成本和每GBps带宽成本均上涨了约1.35倍。这是由于堆栈芯片数增加和DRAM密度提升导致制造与封装难度加大。相比之下,图3(b)显示标准DDR4 DRAM的等效成本在同一时期是下降的。
  3. DRAM密度增长放缓:DRAM芯片的扩展性令人担忧。自2014年8Gb芯片后,容量翻两番(达到32Gb)用了超过10年时间,而此前通常只需3-6年。
  4. 仅靠SRAM的方案已不现实:Cerebras和Groq曾尝试用大容量片上SRAM来规避DRAM问题。但在LLM规模爆炸式增长后,两家公司都不得不为其系统加装外部DRAM。
    HBM与DDR成本随时间变化趋势对比

解码挑战二:端到端延迟

  1. 面向用户的推理要求低延迟:与耗时数周的训练不同,推理需要实时响应,延迟要求通常在秒级甚至更低。延迟可以从两个维度衡量:
    • 完成时间:输出序列越长,延迟自然越长。同时,每次解码迭代都伴随着较高的内存访问延迟。
    • 首词延迟:更长的输入序列、RAG检索以及推理模型在最终答案前生成的大量“思考”令牌,都会增加生成第一个用户可见令牌所需的时间。
  2. 互连延迟比带宽更重要:LLM推理改变了数据中心互连的优先级。
    • 由于模型权重巨大,LLM推理通常需要多芯片系统并通过软件分片,这意味着频繁的芯片间通信。MoE和长上下文模型进一步扩大了系统规模。
    • 与训练不同,推理的批处理大小较小,网络消息也更小。对于频繁发送的小消息而言,延迟比带宽更为关键。

表2总结了解码推理面临的主要挑战。只有扩散模型主要需要提升计算能力——这相对容易实现。因此,我们应聚焦于改善内存和互连延迟的有前景方向,而非单纯追求算力。表格最后四行指出了四个具体的研究机会。
LLM推理主要硬件瓶颈与研究方向总结

重新思考LLM推理硬件的四个研究机会

评估AI系统效率需要全面的性能/成本指标。现代指标强调实际性能、总拥有成本、平均功耗和二氧化碳当量排放,这为系统设计指明了新方向:

  • 性能必须有意义。对LLM解码而言,高FLOPS不等于高性能,我们需要高效扩展内存带宽与容量,并优化互连速度。
  • 性能必须在数据中心有限的功耗、空间和碳排放预算内实现。
  • 功耗和碳排放应成为首要优化目标,它们直接影响TCO和运营碳足迹。

接下来,我们介绍四个能协同提升性能/TCO、性能/碳排放和性能/功耗的研究方向。

高带宽闪存与3D计算-DRAM堆叠结构示意

1. 高带宽闪存:容量提升10倍

高带宽闪存通过堆叠闪存芯片,将HBM级带宽与闪存级容量相结合(图4(a))。HBF可使每个节点的内存容量提升10倍,从而缩小系统规模,降低功耗、TCO、碳排放和网络开销。表3对比了HBF、HBM和DDR。HBF的短板在于有限的写入耐久性和较高的读取延迟(基于页访问,延迟在微秒级)。这意味着HBF无法完全取代HBM,系统仍需DRAM来存储频繁更新的数据。

HBF、HBM、DDR等内存技术粗略对比

HBF为LLM推理带来了新可能:

  • 10倍权重内存:推理时权重是冻结的,适合存储在HBF中,从而支持更庞大的模型(如巨型MoE)。
  • 10倍上下文内存:适合存储变化缓慢的上下文,如网络搜索的语料库、代码数据库或学术论文库。
  • 更小的推理系统:更大的单节点容量可以缩小系统规模,提升通信和资源分配效率。
  • 更大的资源池:降低对单一HBM架构的依赖,缓解高端内存的供应压力。

这也引出了新的研究问题:软件如何适配HBF的特性?系统中HBF与传统内存的理想比例是多少?能否从技术上降低HBF自身的限制?移动端与数据中心的HBF配置应有何不同?

2. 近内存处理技术实现高带宽

内存内处理技术将小处理器嵌入内存芯片以获得高带宽,但面临软件分片复杂和内存逻辑耦合(导致逻辑能效低)的挑战。近内存处理技术则将内存与逻辑芯片放置于临近位置但保持独立。PNM的一种形式就是下文将介绍的3D计算逻辑堆叠。

近期一些研究模糊了PIM和PNM的界限。我们在此明确区分:PIM是处理器与内存在同一芯片内;PNM是处理器与内存在相邻但独立的芯片上

如果软件难以利用,硬件优势将毫无意义。表4列出了PNM在数据中心LLM推理中优于PIM的原因。尽管PNM的绝对带宽和功耗优势不及PIM,但其软件分片更简单(分片粒度大1000倍),且计算逻辑不受DRAM工艺的功耗散热限制。
数据中心LLM推理场景下PIM与PNM对比

对于移动设备,情况则不同。移动设备运行的是更小规模的LLM(权重少、上下文短),且为单用户运行,这简化了分片并降低了计算需求,使得PIM的弱点不那么突出,因此在移动端PIM可能更具可行性。

3. 用于高带宽的3D内存逻辑堆叠

与2D封装不同,3D堆叠(图4(b))通过垂直硅通孔实现更宽更密的内存接口,从而在低功耗下获得高带宽。主要有两种形式:一是复用HBM设计,在HBM基础芯片中插入计算逻辑;二是定制化的3D解决方案,有望实现比HBM更高的带宽和能效。

尽管优势明显,3D堆叠也面临挑战:

  1. 散热:较小的表面积使得散热更难。一个解决方案是降低逻辑芯片的频率和电压,因为LLM解码本身计算强度就不高。
  2. 内存逻辑耦合:可能需要行业标准来定义3D堆叠的内存接口。

这带来了新的研究问题:软件如何适应这种带宽/容量/算力比值迥异的新系统?在包含多种内存类型的异构系统中如何高效映射LLM?3D堆叠之间以及与主处理器之间如何通信?不同的3D设计选择(如逻辑芯片位置、堆叠层数)在带宽、功耗、散热和可靠性上有何权衡?移动端与数据中心的3D方案有何不同?

4. 低延迟互连

前述三种技术有助于降低延迟和提升吞吐量。除此之外,数据中心另一个有前景的方向是重新权衡网络延迟与带宽,因为推理对延迟更为敏感。例如:

  • 高连通性拓扑:采用树形、蜻蜓形等拓扑,可以减少通信跳数以降低延迟,即使这可能牺牲一些带宽。
  • 网络内计算:LLM常用的通信模式(如广播、全归约)非常适合在网络交换机内进行加速,能同时改善延迟和带宽。
  • AI芯片优化:针对小数据包优化,如将到达的数据包直接存入片上SRAM而非DRAM;将计算引擎靠近网络接口。
  • 可靠性协同设计:例如,本地备用节点可以降低故障恢复的延迟;在允许不完美通信的场景下,超时后使用替代数据而非无限等待,可以保证响应速度。

相关工作

  • 高带宽闪存:SanDisk和SK海力士曾提出类似概念。微软研究人员提出了一种专注于读取性能和高密度的人工智能内存,HBF可视为其具体实例。另有研究探讨了将闪存集成到移动处理器用于设备端LLM推理。
  • 近内存处理:基于HBM的计算方案和AMD的概念展示了3D堆叠的潜力。非3D领域也有三星AXDIMM和Marvell Structera等方案,后者利用CXL接口提升了灵活性。
  • 低延迟互连:已有大量关于低跳数拓扑的研究。商业产品中,NVIDIA NVLink和Infiniband交换机已支持网络内归约,以太网交换机也在增加类似功能。
  • 软件创新:除硬件外,算法与软件的协同创新空间巨大。例如,若能像扩散模型替代自回归生成那样,找到新的非自回归生成算法,将从根本上简化推理硬件。

结论

LLM推理的重要性与日俱增,其难度和成本压力也催生了一个极具吸引力的研究领域。自回归解码本身对内存和延迟构成根本挑战,而MoE、推理模型、多模态等新趋势更是雪上加霜。

计算机体系结构 社区曾借助精准的模拟器在分支预测、缓存设计等领域做出巨大贡献。面对LLM推理这一以内存和延迟为瓶颈的新问题,基于“屋顶线”模型的性能模拟器同样能提供有效的早期评估。此类框架还需关注内存容量、关键的分片策略,并采用现代的绩效/成本指标。我们呼吁学术研究者抓住这一机遇,推动AI研究加速发展。

当前以高FLOPS大芯片、多HBM堆栈和高带宽互连为核心的AI硬件设计理念,与LLM解码推理的需求并不完全匹配。我们建议从四个方向重点改进内存和网络:高带宽闪存、近内存处理、3D堆叠和低延迟互连。同时,关注数据中心容量、系统功耗和碳足迹的新绩效指标,相比传统指标揭示了新的优化机会。HBF、PNM/PIM和3D堆叠的简化版本也有望应用于移动设备LLM。

这些方向的进展需要业界与学界的通力合作,共同推动这一世界亟需的关键创新,以实现经济实惠的AI推理。关于更多人工智能智能计算的前沿讨论,欢迎访问云栈社区进行深入交流。




上一篇:内存条价格半年暴涨300%,AI服务器需求激增引发行业震荡
下一篇:新手前端接手Yomi App首页,我是这样通过UI/UX设计提升视觉层次与情感化体验的
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-23 23:11 , Processed in 0.328526 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表