部署AI解决方案正迅速成为几乎所有行业企业的优先事项,这给各类组织带来了挑战——从传统IT组织到新型云提供商,他们都在努力调整传统基础设施以满足AI生命周期的独特需求。虽然AI几乎影响着技术栈的每个环节,但现代AI管道受到的影响最为直接,因为它们需要以传统企业工作负载通常无法企及的速度和规模来消费和生成数据。
如今,企业AI的发展方向日益受到推理工作负载的驱动,即AI模型在生产环境中的部署,以提供实时业务价值。与训练阶段不同,推理是企业AI的核心运行环节,模型必须为最终用户和业务应用程序提供一致且低延迟的响应。
无论部署在本地还是云端,传统的企业存储架构往往无法满足AI生命周期各个阶段的不同需求。这些方法尤其不适用于分布式训练和现代推理工作负载的需求,因为昂贵的AI基础设施闲置(通常是由于存储瓶颈造成的)会对企业造成切实的经济损失。
生产型AI从根本上改变了底层存储基础设施的要求,推理现在需要存储架构能够支持高并发、微秒级敏感操作,同时在企业级规模上保持成本效益高的令牌处理或“令牌经济学”。
此外,随着AI模型变得越来越大、越来越复杂,特别是随着智能AI和大型推理模型(LRM)的出现,令牌处理的经济性已成为决定AI部署的可行性和可扩展性的关键因素。
随着AI进入企业级应用,推理性能已成为AI模型提供商和企业IT领导者关注的首要问题。训练工作负载可以周期性运行,而推理工作负载必须持续运行,服务于可能成千上万的并发用户,并满足严格的延迟要求。这种实际运行情况要求存储架构能够提供稳定、可预测的性能,并能无缝扩展以满足不断变化的需求模式。
让我们来探讨AI整个生命周期中对数据基础设施的独特需求,包括数据摄取、训练、推理和生命周期管理,尤其关注当今企业级AI项目在推理方面面临的挑战。
一、存储如何导致AI管道速度变慢
使用并非为深度学习严苛计算环境设计的存储系统会导致AI流程停滞,从而严重阻碍训练过程的效率和进度。这会导致昂贵的AI训练集群无法得到充分利用。
非AI专用存储系统可能因多种原因而出现故障:
- I/O带宽不足:当存储系统的带宽不足以处理正在读取或写入的数据量时,就会造成瓶颈。这会延迟数据加载和检查点操作,导致GPU和CPU空闲。
- 高延迟:从存储设备访问数据时的高延迟会显著减慢数据检索过程。延迟增加会导致向训练单元提供数据的时间延长,从而中断训练流程并降低整体效率。
- 存储吞吐量有限:存储系统可能无法维持连续数据读写操作所需的吞吐量。这会导致数据访问速度变慢,从而造成训练过程因等待数据而停滞。
- 存储争用:当多个进程或应用程序竞争访问同一存储资源时,就会发生存储争用。由于存储系统需要处理并发访问请求,这会导致延迟和效率低下,从而降低数据传输速率。
- 碎片化:存储系统中的数据碎片化会导致访问连续数据块时出现延迟,增加读取/写入数据所需的时间,并中断训练过程。
- 内存缓冲不足:如果用于在存储单元和计算单元之间缓存数据的内存缓冲区不足,则会导致频繁的停顿。这会导致内存和存储之间频繁的数据交换,从而增加延迟并降低吞吐量。
- 并发问题:在分布式训练环境中,管理跨多个节点的并发数据访问可能极具挑战性。协调和同步不佳会导致节点等待数据可用或一致时出现停滞。
部署基于专为整个AI生命周期设计的存储架构的存储平台,可以减少生成式AI训练和推理周期中的存储停滞,从而实现更高效、更有效的AI部署。
与可以容忍偶尔性能波动的训练工作负载不同,推理工作负载直接影响用户体验和业务运营,因此存储性能是企业AI部署的关键成功因素。
二、AI生命周期中的存储需求
AI生命周期由一系列阶段组成,每个阶段对存储系统的性能要求各不相同。这些阶段包括数据收集和准备、模型训练、推理和部署,以及后续的生命周期管理。值得注意的是,在当今AI驱动的环境中,由于推理操作的持续性和对生产的关键性,以及服务于实时业务应用的需求,推理操作占据了存储需求的主导地位。

图1:AI生命周期
用于生成式AI的深度学习的特点是数据读写操作频繁、需要频繁访问大型数据集以及大量的中间数据处理。虽然这些I/O模式会影响训练和推理过程,但企业级推理所需的性能特征却截然不同——它要求微秒级的响应速度、高并发支持以及在不同负载条件下可预测的延迟。

图2:存储对AI生命周期的影响
1、数据摄取和预处理的存储需求是什么?
在AI流程的第一阶段,用于训练和推理的数据从各种来源收集。原始数据随后被移至集中式存储系统或数据湖。越来越多的企业也开始部署实时数据管道,以支持需要访问持续更新的数据集和流式数据源的实时推理应用。
数据采集完成后,摄取过程会使用ETL(提取、转换、加载)或其他预处理技术来确保数据格式正确并存储。这需要系统将大量原始数据从存储设备移动到执行ETL功能的服务器。
对于以推理为中心的部署,此阶段还必须支持实时数据转换和特征工程,以确保模型以最小的延迟接收格式正确的输入数据。
从存储系统的角度来看,此阶段涉及混合读写操作。原始数据从存储器读取并在内存中进行处理。预处理后的数据写回存储器或保留在内存中。为了处理频繁的小文件操作,特别是对于可能需要快速访问各种数据源和特征存储的推理工作负载,高读写IOPS至关重要。
高顺序读取吞吐量对于高效加载大型数据集至关重要。ETL流水线通常分批读取数据,以优化内存使用和计算效率。
2、为什么存储吞吐量对模型训练很重要?
训练是机器学习的核心环节。从宏观层面来看,训练是一个迭代过程,其中经过采集和清洗的数据被送入GPU集群。深度学习算法以迭代的方式分批将数据输入神经网络模型,直到达到预期结果。
尽管训练对于模型开发仍然至关重要,但企业越来越注重优化训练工作流程,以支持快速的模型迭代和部署周期。快速训练、验证模型并将其部署到生产推理环境的能力已成为一项竞争优势,这就要求存储架构能够无缝支持从训练到生产部署的过渡。
高效的数据处理、强大的计算能力和有效的优化技术对于深度学习训练的成功至关重要。其中,底层存储架构的性能影响最为显著。
训练包括多项任务,每项任务对存储系统的要求各不相同:

在整个训练周期中,有四个主要过程会影响存储基础设施:
- 数据存储:训练生成式AI需要访问海量数据集,通常包含TB级甚至更多的数据。高性能存储系统能够提供更快的数据访问和检索速度,从而缩短数据加载时间并提高整体训练速度。对于企业级部署,相同的存储基础设施还必须支持推理工作负载,这就要求架构能够同时处理批量训练操作和实时推理请求。
- 检查点机制:定期进行检查点操作(保存模型状态)对于防止数据丢失和促进模型恢复至关重要。快速存储系统能够实现检查点的快速写入和读取,从而最大限度地减少停机时间,并确保训练的高效持续进行。当训练分布在多个GPU上时,检查点机制尤为重要。
- 数据吞吐量:从存储设备读取或写入数据的速率对于将数据输入训练流程至关重要。高吞吐量存储解决方案可确保数据无延迟地传输到GPU/CPU,从而最大限度地提高资源利用率和训练效率。企业级存储必须保持这种吞吐量性能,即使在同时处理需要对模型工件和特征数据进行可预测、低延迟访问的推理工作负载时也是如此。
- 单一命名空间下的并行访问:训练涉及多个GPU/CPU同时访问数据的分布式系统。具备高并行访问能力的存储系统支持多个数据流并发处理,从而减少争用并确保数据流畅传输。
3、检查点机制如何影响模型进度?
训练过程中的检查点机制是一项关键步骤,它涉及定期将模型状态保存到存储设备。这种做法确保在发生中断(例如硬件故障或断电)时,训练可以从上次保存的状态恢复。存储系统的性能和容量会显著影响检查点机制的效率和可靠性。

存储系统的性能和特性对训练过程中检查点的效率和可靠性有着显著影响。高性能、高可靠性和可扩展的存储解决方案能够实现更快、更频繁的检查点,降低数据丢失的风险,并确保训练过程的顺利进行。通过优化存储系统并实施适当的策略,可以提高整个训练过程的弹性和效率。
4、推理存储需求与训练存储需求有何不同?
部署后,模型会读取新的输入数据以生成输出(例如,文本生成、图像合成)。推理的关键在于速度、效率和成本效益。它需要超低延迟和高IOPS才能快速访问模型,从而优化响应时间。对于企业级推理应用,存储系统必须具备超低延迟,同时还要支持随机访问模式,以便快速检索各个推理请求所需的特定数据子集。
这一阶段的特点是代币经济学的重要性日益凸显——代币处理的经济性直接影响AI推理操作的成本效益和可扩展性。推理请求的成本,尤其是在使用大型语言模型时,通常与代币成本密切相关,而代币成本又取决于输入提示和生成输出中的代币数量。由于推理通常以大规模(数百万次或数十亿次)执行,因此即使效率的微小提升也能带来显著的成本节约。
随着模型规模的扩大和上下文窗口的扩展,AI推理面临着前所未有的挑战。智能体AI和大型推理模型的出现,加剧了对实时请求优化的需求,从而造成了业内专家所称的“内存墙”——GPU内存限制成为推理性能的主要瓶颈,这是一个根本性的限制。
推理中的“记忆墙”挑战是什么?
现代AI推理的一个根本限制在于可用内存量。GPU可以并行处理海量数据,但每个GPU的可用内存是固定的。随着模型复杂性的增加和对更长上下文的需求,其内存占用量会超出单个GPU的处理能力。这会导致GPU内存不足,从而造成效率低下,并严重阻碍AI令牌的生成。
此外,GPU无法独立于计算能力直接扩展其内存。当需要更多内存时,唯一的解决方案是增加GPU数量,这会增加成本,但性能却不会成比例地提升。许多AI工作负载都存在资源利用率不匹配的问题,由于需要更多内存,导致多余的计算能力无法使用,从而造成高达70%的GPU空闲时间。
为什么代币经济现在成为核心业务因素?
代币经济模型已成为AI部署成功的关键因素。每个代币的成本受多种因素影响,例如首次代币发放时间(TTFT)、整体吞吐量和GPU利用率,它直接影响AI应用的经济可行性。糟糕的代币经济模型甚至会使最先进的AI模型在商业上失去可行性。
代币经济学面临的主要挑战包括:
- 预填充延迟:较大的上下文窗口仅预填充操作就可能需要20秒以上,这会造成无法接受的用户体验。
- 内存开销:键值缓存需求随序列长度线性增长,导致昂贵的GPU过度配置。
- 资源浪费:传统架构在使用后会丢弃已计算的键值缓存数据,导致后续请求中出现冗余计算。
扩展键值缓存如何提升性能?
KV缓存是基于Transformer的模型中的关键组件,用于存储先前计算的注意力键和值。该缓存使模型能够避免对已处理的词元重复计算这些值,从而显著提高推理效率。然而,传统方法面临着严重的局限性:
- GPU内存有限:KV缓存必须适应GPU内存的限制,从而限制上下文长度和并发请求数。
- 缓存释放:大多数系统在推理完成后会丢弃键值缓存数据,造成宝贵计算资源的浪费。
- 内存争用:模型权重和键值缓存争夺有限的GPU内存会降低整体效率。
解决方案在于扩展KV缓存功能,使其超越传统GPU内存的限制,同时保持高效推理所需的微秒级访问速度。
5、生命周期管理如何驱动持续的存储需求?
模型部署后,需要持续监控其性能、偏差和异常情况,这涉及到收集和存储新数据。模型会定期使用更新后的数据进行重新训练,以提高准确性。此阶段需要高效的数据摄取、快速的读写操作以及能够处理不断增长的数据量的可扩展性,这就要求存储系统提供高吞吐量、低延迟、高IOPS和足够的扩展能力。
在企业生产环境中,生命周期管理已成为主要的存储消耗者,因为推理工作负载会生成海量的运行数据,包括请求日志、响应指标、模型性能遥测数据和用户反馈。这些运行数据必须实时处理,才能检测模型漂移、性能下降和潜在的安全问题。存储基础设施必须同时支持高吞吐量的日志摄取、用于监控仪表板的实时分析,以及对历史数据的快速访问,以用于模型重新训练和合规性报告。
模型和训练数据通常也需要归档,这意味着需要长期存储原始数据、处理后的数据和生成的数据,以备将来使用、合规性或审计之需。高效的归档需要均衡的读写吞吐量。压缩和去重技术通常用于优化存储空间并降低I/O负载。
对于大规模运营的企业而言,推理生成的数据量通常比训练数据量大几个数量级,这就要求存储架构能够根据访问模式有效地对数据进行分层,同时保持快速检索能力以满足合规性和审计要求。
三、满足AI需求所需的存储能力
AI流水线需要一种能够持续、并发地满足其所有阶段I/O需求的存储架构。对于传统存储架构而言,这项任务通常充满挑战,因为它们的设计初衷是为了满足传统企业工作负载相对宽松的需求。同时,并行文件系统(例如开源的Lustre文件系统)是为经典的高性能计算(HPC)环境设计的,缺乏支持当今AI生命周期所需的优化。
如上所述,训练和推理工作负载对传统存储系统都是挑战。训练的高吞吐量需求需要针对AI进行优化的存储,而推理作为企业级AI的主要工作负载,从根本上改变了存储需求。与可以调度和优化以进行批量处理的训练工作负载不同,推理工作负载必须在高度可变的负载条件下提供一致且可预测的性能。企业级推理应用程序可能会遇到突发的流量高峰,需要亚毫秒级的响应时间,并且必须保持高可用性标准,这些都会直接影响业务运营和客户体验。
针对AI流水线特定需求而设计的存储架构必须在多个方面进行优化。这些方面包括其处理元数据的方式、管理分布式存储的能力、突破传统内存限制以优化推理的能力,以及克服AI流水线中常见性能瓶颈的能力。
对于企业部署而言,最关键的是,存储架构必须能够出色地加速AI生命周期的每个环节,满足生产推理工作负载的并发、延迟敏感型访问模式,同时保持训练和数据处理操作所需的高吞吐量能力。
1、为什么元数据效率对AI流程至关重要?
从数据摄取和预处理到模型训练、部署和监控,高效处理存储元数据在AI的整个生命周期中都至关重要。元数据操作(包括打开文件、获取属性和管理目录等)如果处理不当,会对性能产生显著影响。

表3:元数据处理对AI流程的影响
2、分布式存储与单一命名空间如何改进AI工作流程?
采用单一命名空间的分布式存储解决方案提供了整个存储基础架构的统一视图,使用户能够跨多个存储系统和位置访问数据,就像访问单个、连贯的文件系统一样。
部署一种利用单一命名空间的存储解决方案,其中分布式存储能够提供企业传统存储系统难以企及的可扩展性、性能、协作性和效率。这解决了处理大型数据集以及复杂的AI训练和推理工作流程所面临的诸多挑战。
分布式存储架构为任何存储解决方案带来诸多效率提升:
- 高性能:数据分布在多个节点上,支持并行访问和处理。这提高了读写速度,降低了延迟,并提升了整体性能,这对AI训练和推理任务至关重要。
- 容错性和冗余性:跨节点的数据复制确保不会因单点故障而导致数据丢失。这提高了数据的可靠性和可用性,即使在硬件故障的情况下也能保证持续运行。
- 可扩展性:存储可以通过向系统中添加更多节点来快速扩展,从而支持AI项目不断增长的数据存储需求,并允许在不进行重大重新配置的情况下进行扩展。
- 地理分布:数据可以存储在多个地理位置,从而降低全球分布式团队的延迟,并通过跨区域复制数据提供灾难恢复选项。
- 成本效益:分布式存储系统可以通过利用通用硬件和云资源、采用经济高效的解决方案以及优化资源利用率来降低成本。
除了这些固有优势之外,分布式存储架构还为AI流程带来了特定的优势:

表4:采用单一命名空间的分布式存储对AI流水线的影响
单一命名空间与分布式存储的结合,通过增强数据可访问性、提升性能、促进协作以及确保可扩展性和可靠性,为AI生命周期带来显著价值。这些技术满足了现代AI工作流程的关键需求,实现了高效的数据管理和处理,这对于AI的成功训练、部署和持续改进至关重要。
对于推理部署而言,这些功能对于实现业务关键型AI应用所需的规模、性能和可靠性至关重要,这些应用服务于数百万用户,每秒处理数千个请求。
结论:面向生产环境的大规模AI存储
现代AI流水线直接受到存储系统高吞吐量、低延迟和高IOPS能力的影响,同时还要支持训练和推理等高要求的数据操作。随着行业向智能体AI和大规模推理模型发展,令牌处理的经济性已成为决定AI部署可行性和可扩展性的关键因素。
企业从实验性AI转向生产推理从根本上改变了存储需求。虽然训练工作负载对于模型开发仍然至关重要,但如今企业AI的重点已转向推理工作负载,这些工作负载必须提供持续稳定的实时性能,以支持业务关键型应用和面向客户的服务。这种实际运行情况要求存储架构能够出色地应对并发、对延迟敏感的访问模式,同时保持训练和数据处理操作所需的高吞吐量。
传统的存储解决方案,无论是在本地部署还是在云端,往往无法满足AI生命周期各个阶段的不同需求。这些传统方案尤其不适用于分布式训练和现代推理工作负载,因为在这些场景下,存储性能直接影响用户体验、业务运营和收入。存储性能问题的影响远不止于开发周期——它会立即影响生产系统、经济效益和客户满意度。
内存墙已成为AI推理领域的一个根本性瓶颈,因此迫切需要创新解决方案来扩展GPU内存容量,同时保持高效令牌处理所需的微秒级性能。持久化和重用键值缓存数据的能力代表着推理效率的范式转变,有望大幅降低成本,并显著提升用户体验。
参考资料:
https://www.weka.io/resources/analyst-report/the-impact-of-storage-on-the-ai-lifecycle/
免责声明:作者尊重知识产权、数据隐私,部分图片和内容来源于公开网络,版权归原撰写发布机构所有,如涉及侵权,请及时联系我们删除。
欢迎在云栈社区交流探讨更多AI基础设施相关技术。