找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4103

积分

0

好友

571

主题
发表于 2 小时前 | 查看: 3| 回复: 0

前沿技术的传播者 顶尖科技的观察者

AI的竞争焦点,正从单纯的模型能力转向规模化推理能力。随着大模型在企业级场景的深入应用,推理系统的性能、成本与资源利用率,已成为决定AI商业化成功与否的关键。在这个过程中,存储作为AI基础设施的核心支撑,正成为释放算力潜力、重构推理效率结构的决定性力量。

为了系统评估智算中心的“存力”水平、打通技术研发与产业应用之间的壁垒,在NVIDIA、美团、三星、Solidigm等产业链领军企业的支持下,ODCC(开放数据中心委员会)成立了AI存储实验室。针对推理场景中普遍存在的数据响应瓶颈,实验室聚焦于大模型推理的关键制约因素——KVCache(Key-Value Cache,键值缓存),启动了面向存储软硬件的专项协同测试。这项工作的目标,是构建一套适配推理场景的KV Cache存储解决方案及测试规范,切实推动AI存储技术走向标准化、规范化与规模化落地。

ODCC AI存储实验室 KVCache 评测硬件与软件环境架构图

ODCC AI 存储实验室 KVCache 评测环境

焱融科技作为国内专业的AI存储厂商,其自主研发的YRCache推理存储系统参与了首批测试,并取得了优异的成果。测试结果不仅验证了YRCache对推理性能的显著提升,更揭示了一个关键价值:YRCache可以让中低配置的GPU跑出接近高配置GPU的推理性能,从而优化推理成本,从根本上重构企业在AI推理基础设施上的投入产出比。

本次测试的核心亮点数据:

  • 推理性能实现数量级提升

    • TTFT(首Token延时)降低97%,实现实时响应。
    • TPOT(每个输出Token生成时间)降低97%,确保流式输出流畅。
    • Token吞吐量(每秒生成token数)提升22倍,单token成本可同比降低。
  • 低配GPU性能逼近高配,成本结构优化

    • 在YRCache加持下,中端GDDR GPU的各项推理性能指标接近高端HBM GPU,投资回报率(ROI)提升高达14倍。
    • 为企业提供了一条“用更低的算力预算获得更高推理能力”的可行路径。

测试背景:长上下文带来的KVCache挑战

随着大语言模型(LLM)的持续演进,应用场景不断拓展,上下文长度也快速增长。以 DeepSeek-R1 为代表的新一代推理模型,已支持超过100K的超长上下文。这虽然提升了模型处理复杂任务的能力,但也导致了KVCache的爆炸式增长。

KVCache是 Transformer 架构在推理阶段的核心数据结构,用于缓存注意力机制的中间结果,是影响推理效率的关键变量。随着上下文长度的增加,KVCache占用的显存呈线性膨胀,已成为推理系统的主要性能瓶颈。因此,如何高效管理KVCache,是决定大模型推理系统能否实现规模化的关键。

测试目的:验证存储对推理的加速效果

焱融YRCache推理存储系统是专为大规模推理设计的KVCache存储管理平台。它通过构建GPU显存、主机内存、本地NVMe SSD和YRCloudFile高性能分布式文件存储等多级KV缓存架构,显著扩展了KV缓存空间,旨在加速推理性能提升。本次测试的目的,就是在基于NVIDIA计算和网络平台的标准化环境下,客观评估YRCache对实际推理性能的提升效果。

YRCache 多级KV缓存架构示意图

YRCache 架构图

测试环境与方法

本次测试主要围绕PD(Prefill-Decode)一体化推理场景,基于 DeepSeek-R1 等主流大模型,对比原生 vLLM 框架与集成YRCache后的系统,在不同网络带宽配置下的性能表现。

  • 测试模型DeepSeek-R1-0528-FP4(671B参数,FP4量化),支持128K tokens上下文。
  • 测试框架vLLM + YRCache(焱融客户端),基于RDMA/RoCEv2协议。
  • 测试网络:采用NVIDIA Spectrum-X 400Gbps以太网,通过Spine-Leaf网络拓扑实现高速互联。

测试分别在两类典型的GPU算力环境中进行,以评估YRCache在不同硬件配置下的普适性:

  1. 中端GDDR GPU服务器:显存容量和带宽相对较低,面向成本敏感型的大规模推理部署、中等规模模型服务等场景。在此类环境下,系统对显存资源更为敏感。
  2. 高端HBM GPU服务器:显存容量和带宽更高,面向超大规模推理、高并发及长上下文推理等需求,如100K+ Tokens长文本处理、高端智算中心部署等。

测试环境网络拓扑与硬件连接图

测试环境网络拓扑图

测试结果分析:性能飞跃与成本重塑

1. 推理性能的全面维度提升

在ODCC的严格测试中,对比原生vLLM框架,YRCache在不同GPU和网络配置下,均实现了TTFT、TPOT、Token吞吐量等核心指标的跨越式优化。

YRCache性能提升概览:97% TTFT降低,97% TPOT降低,22倍Token吞吐量提升

中端GDDR GPU环境下的表现:
在8卡中端GDDR GPU、batch size=16、输入长度10K tokens的条件下:

8卡中端GDDR GPU下,vLLM与YRCache性能对比柱状图

  • 在400Gbps网络下,使用YRCache后,TTFT降低95%,TPOT降低96%,Token吞吐量提升17倍
  • 在800Gbps网络下,使用YRCache后,TTFT降低97%,TPOT降低97%,Token吞吐量提升22倍

高端HBM GPU环境下的表现:
在同等负载条件下,高端HBM GPU环境同样受益显著。

8卡高端HBM GPU下,vLLM与不同带宽YRCache性能对比柱状图

网络配置 TTFT 降低 TPOT 降低 Token 吞吐量提升
200Gbps 78% 89% 4 倍
400Gbps 87% 90% 6 倍
800Gbps 91% 90% 8 倍

不同网络带宽下,YRCache在高端HBM GPU上的性能提升

长上下文场景的稳定增益:
在模拟不同上下文长度的测试中,随着输入序列从100 tokens增长到100K tokens,YRCache实现了全程稳定的性能提升,且增益随着上下文增长呈放大趋势。这意味着企业在部署长文档分析、代码生成、多轮对话等重负载任务时,无需担心性能出现断崖式下跌。

不同输入长度下,中端GDDR GPU环境中TTFT、TPOT、吞吐量的变化曲线

不同输入长度下,高端HBM GPU环境中TTFT、TPOT、吞吐量的变化曲线

2. 跨越硬件代差,实现革命性成本优化

如果说性能提升是预期之内,那么YRCache能够缩小甚至弥合不同档次GPU之间的性能鸿沟,则为企业带来了更具战略意义的成本优化价值。

测试结果显示:在YRCache的加持下,配置较低的中端GDDR GPU服务器,其综合推理性能指标大幅逼近高端HBM GPU服务器。

性能差距对比(以400Gbps网络为例):

400Gbps网络下,中端与高端GPU在使用YRCache前后的性能对比柱状图

  • 未使用YRCache时,中端GDDR GPU对比高端HBM GPU:

    • TTFT:19051ms vs 6992ms,慢约173%。
    • TPOT:1637ms vs 448ms,慢约265%。
    • Throughput:4341 vs 14269 tokens/s,吞吐量仅为后者的30%。
  • 使用YRCache后:

    • 两者性能均大幅跃升,且差距急剧缩小。
    • TTFT差距从12059ms缩小至49ms。
    • TPOT差距从1189ms缩小至13ms(差距缩小99.6%)。
    • 中端GDDR GPU的吞吐量达到了高端HBM GPU的76%。

使用YRCache前后,中端与高端GPU在TTFT、TPOT、吞吐量上的详细数据对比表

投资回报率(ROI)的爆发式增长:
硬件采购成本与实际产出吞吐量是衡量ROI的关键。测试数据清晰地揭示了YRCache带来的成本效益优化。

不同硬件与YRCache配置方案的成本、吞吐量与ROI对比表格

从上表可以看出,虽然在原生状态下中端GDDR GPU的推理表现不占优,但引入YRCache后,其ROI呈现出爆发式增长。在800Gbps网络环境下,“中端GDDR GPU + YRCache”方案的ROI达到了“高端HBM GPU原生”方案的14.17倍

这意味着,投入相同的资金,采用优化方案能带来远超顶级硬件原生方案的产出效率。这对于企业而言,是AI成本结构的根本性重构:

  • 选择更灵活:不必盲目追求最昂贵的GPU,通过部署YRCache,现有或性价比更高的硬件也能释放卓越性能。
  • 总拥有成本(TCO)优化:在规模化部署时,TCO可实现显著降低。
  • 降低门槛:使中小企业也能以更低的初始投入,构建高性能的AI推理服务。

对于正处于商业化关键期的AI企业而言,这不仅是性能和成本的优化,更是商业模式的拓展——当推理成本从“高端硬件依赖”转向“存储架构创新”,更多AI应用场景将具备经济可行性。

总结与展望

此次参与ODCC AI存储实验室首批KVCache场景测试,不仅有力印证了焱融YRCache的技术实力,也为整个AI推理行业指明了一条“通过存储驱动性能、通过架构优化成本”的全新路径。

除了面向大规模推理的YRCache,焱融科技目前已围绕AI全流程数据需求,构建了覆盖数据采集、模型训练、推理加速与数据治理的完整产品体系,为企业的人工智能规模化落地提供全栈支撑。

焱融科技面向AI全生命周期的数据存储与产品服务能力体系图

未来,随着模型复杂度和上下文长度的持续增长,高效的数据与缓存管理将变得愈发关键。类似YRCache这样的存储技术创新,将继续在提升算力利用率、降低推理成本方面扮演核心角色。对于关注智能 & 数据 & 云前沿技术的开发者与架构师而言,深入理解存储与计算的协同优化,将是构建下一代高效AI基础设施的必修课。欢迎在云栈社区继续探讨相关技术实践与架构选型。




上一篇:从年营收破20亿到被唱衰,AI编程工具Cursor的争议与自救
下一篇:Cloudflare 发布 vinext:AI 一周重构 Next.js 框架,Vite 驱动、一键部署
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-11 02:52 , Processed in 0.419418 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表