找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4264

积分

0

好友

573

主题
发表于 4 小时前 | 查看: 7| 回复: 0

NVIDIA 研究人员推出了一项名为 KVTC(KV 快取转换编码)的全新技术,能够将大型语言模型(LLM)追踪对话历史所需的内存用量最高缩减 20 倍,并且无需修改模型本身。

这一技术突破有望解决大型语言模型在进行长对话推理时的内存瓶颈,显著降低企业使用 AI 的硬件成本。同时,它还能将模型首次生成回应的速度最高提升 8 倍。

简单来说,KVTC 技术的核心就是压缩大型语言模型背后的 KV 缓存——这相当于 AI 模型的“短期记忆”。我们可以把 KV 缓存理解成学生记笔记:模型在处理对话时,会把关键信息(也就是 Key 和 Value)记录下来,下次生成回应时,无需从头重新计算整段对话,响应速度因此能大幅提升。

但问题在于,对话越长,这份“笔记”的体积就越大,甚至会膨胀到数个 GB,占用大量的 GPU 内存。这不仅会拖慢模型运行,更会限制其处理长上下文的能力。

NVIDIA 资深深度学习工程师 Adrian Lancucki 指出:“大型语言模型进行推理时,性能瓶颈往往不在于运算能力,而在于 GPU 内存。”那些暂时不被使用的 KV 缓存,会持续占用宝贵的 GPU 内存资源,迫使系统将它们转移到 CPU 内存或硬盘中。这不仅增加了数据传输的负担,还可能引入新的延迟,这些额外的开销最终都会体现在企业的使用成本上。

与现有的压缩技术相比,KVTC 没有那些明显的局限。它借鉴了我们熟悉的 JPEG 图片压缩思路,通过“主成分分析、自适应量化、熵编码”三个相对简单的步骤,就能实现对 KV 缓存的高效压缩。

更便捷的是,这项技术属于“非侵入式”设计,无需改动模型的核心架构和代码,企业可以快速部署。它的核心优势在于,能够抓住 KV 缓存“数据高度相关”的特点,在保留关键信息的同时,精准地去掉冗余数据。而且在解压时可以分块、逐层进行,不会影响模型的实时响应。

多轮测试结果表明,KVTC 的表现远超现有的主流方法。在参数量从 15 亿到 700 亿的多种模型(包括 Llama 3 系列、R1-Qwen 2.5 等)上进行测试时,即便将内存压缩 20 倍,模型的准确率也几乎不受影响,损失不到 1%,与未压缩时的表现相差无几。相比之下,传统的压缩方法仅压缩 5 倍,就会出现明显的准确率下降。

此外,在 H100 GPU 上处理一个包含 8000 个 Token 的提示时,不使用 KVTC 需要 3 秒才能生成第一个回应,而使用 KVTC 后仅需 380 毫秒,速度提升了整整 8 倍。

需要注意的是,KVTC 技术更适合长对话、多轮互动的应用场景,例如编程助手、迭代式智能体推理等。如果对话本身较短,则难以充分发挥其压缩价值。

目前,NVIDIA 正计划将这项技术整合进 Dynamo 框架的 KV 块管理器,使其能够与 vLLM 等主流开源推理引擎兼容。

业内人士认为,随着大型语言模型可处理的对话长度不断增加,像 KVTC 这类标准化的压缩技术,未来可能会像视频压缩技术一样普及,成为推动 AI 更广泛落地应用的关键助力。

NVIDIA标志

对这项可能改变 AI 推理成本格局的技术,你有什么看法?欢迎在 云栈社区 与更多开发者交流探讨。




上一篇:Intel处理器接口策略转向:LGA1954有望支持多代CPU升级
下一篇:微信个人号正式接入OpenClaw:14亿月活的AI助理生态与开发者新机遇
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-23 05:16 , Processed in 0.661805 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表