找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4289

积分

0

好友

587

主题
发表于 2 小时前 | 查看: 2| 回复: 0

谷歌大楼前,一人看着手机上的股票K线图,表情惊愕

如果你对生成式AI的内部工作机制不太熟悉,至少也该听说过它们有多么耗费内存。如今内存条价格居高不下,这部分成本难逃其咎。

就在最近,谷歌研究院发布了一项名为 TurboQuant 的新型压缩算法。它旨在降低大语言模型(LLM)运行时的内存占用,同时提升速度,并且最关键的是——保证输出结果的准确性零损失。如果这项技术成功落地,它可以将AI推理时的“工作内存”,即键值缓存(KV cache),压缩至少6倍,甚至在英伟达H100显卡上实现最高8倍的加速。这无疑将大幅削减AI的运营成本。

Cloudflare的CEO Matthew Prince等人甚至将之称为谷歌的“DeepSeek时刻”。此前,中国的AI模型DeepSeek以极低的训练成本实现了性能的飞跃,引发了业界对效率极限的重新思考。

推文截图:Cloudflare CEO称此为谷歌的DeepSeek时刻,下方为谷歌研究介绍TurboQuant算法的推文

TurboQuant最引人注目的特性就是其“无损”承诺。它无需微调,也不需要额外的训练数据。理论上,可以直接接入任何基于 Transformer 架构的模型,将键值缓存压缩到原体积的一小部分,同时保证输出结果与未压缩前逐字符一致。若此效果能在实际生产环境中复现,几乎可以在一夜之间改变长文本上下文推理的成本格局。

市场的反应异常迅速。在TurboQuant发布后的几个小时内,内存类股票应声下跌:美光科技跌3%,西部数据跌4.7%,闪迪跌5.7%。投资者的逻辑很直接:如果AI未来所需的内存大幅减少,相关硬件的需求预期就必须下调。

极致无损压缩:不只为了LLM,还革新了向量检索

在官方博客中,谷歌将TurboQuant描述为一种在不影响性能的前提下,缩减AI运行时内存的全新方法。研究人员指出,该技术采用矢量量化的思路,旨在解决AI处理中的缓存瓶颈,本质上是让AI在占用更少空间、保持精度的前提下,“记住”更多信息。

它的优化目标直指键值缓存(KV Cache)。你可以把它想象成模型的“数字草稿纸”,用于存储计算过程中的关键中间结果,避免重复运算。这张“草稿纸”之所以不可或缺,是因为大语言模型本质上是通过高维向量来模拟语义理解。两个向量越接近,就意味着它们在概念上越相似。然而,这些可能包含成百上千个维度的高维向量会占用海量内存,使得KV Cache体积暴增,成为性能的主要瓶颈。

为了让模型更小、更快,开发者常使用量化技术,以更低的数值精度运行模型。但传统量化的代价通常是生成质量下降。谷歌的早期测试结果却显示,TurboQuant在部分场景下能带来8倍的速度提升和6倍的内存占用降低,且精度没有任何损失

条形图对比:TurboQuant在不同KV值下,性能与KIVI、Full Cache等方法相近

谷歌表示,他们在Gemma和Mistral等开源模型上,使用一系列长上下文基准对新算法进行了测试。结果表明,TurboQuant在所有下游任务中表现完美,同时将KV缓存内存占用降低了6倍。该算法无需额外训练,就能将缓存量化到仅3比特,并直接应用于现有模型。在英伟达H100上,使用4比特的TurboQuant计算注意力分数,速度比32比特未量化的KV缓存快8倍。

柱状图展示:TurboQuant在1-bit, 2-bit, 4-bit下,针对不同序列长度的速度提升倍数

当然,需要清醒认识到,TurboQuant目前仍是一项实验室阶段的突破,尚未大规模部署。如果未来成功落地,它最直接的影响是降低AI模型的运行成本。企业既可以用节省下的内存运行更复杂的模型,也可以维持现有模型以更低成本运行。对于移动端AI而言,这类技术意义重大,它能在不上传数据到云端的前提下,显著提升本地AI的处理能力和生成质量。

除了大语言模型推理,TurboQuant同样适用于向量检索场景。在检索增强生成(RAG)和相似度搜索中,高维向量同样面临巨大的内存压力。实验显示,使用TurboQuant后,索引构建时间几乎降为零(例如,1536维向量仅需0.0013秒,而传统乘积量化需要239.75秒);在GloVe数据集上的召回率也优于乘积量化等基准方法。

技术逻辑揭秘:应用到现有模型只需两步

将TurboQuant应用到AI模型主要分为两个阶段,其背后是两项核心技术:量化方法PolarQuant,以及用于训练与优化的QJL方法。

为了实现高质量压缩,谷歌设计了名为PolarQuant的系统。它采用了一种截然不同的思路来编码向量。传统上,AI模型中的向量使用标准的直角坐标系(XYZ)编码。而PolarQuant会将向量转换为极坐标形式。在这个环形网格中,向量被简化为两项信息:半径(代表数据的核心强度)和方向(代表数据的语义含义)。

谷歌用一个生动的比喻来解释:传统编码好比说“向东走3个街区,再向北走4个街区”;而极坐标则可以简化为“沿37度方向走5个街区”。这不仅占用空间更少,还省去了计算开销巨大的数据归一化步骤。PolarQuant承担了主要的压缩工作,虽然效果显著,但会引入一定的残留误差。

第二步则用于修复这些误差。为此,谷歌提出了量化约翰逊-林登斯特劳斯变换(QJL)进行平滑处理。该技术能在压缩复杂高维数据的同时,保留数据点之间关键的距离与关联信息。QJL为模型添加了一层1比特的误差校正层,将每个向量压缩至单个比特(+1或-1),本质上构建了一套高速“简写”系统,且内存开销近乎为零。同时,为了保证精度,QJL采用了一种特殊的估算器,巧妙地在高精度查询和低精度简化数据之间取得平衡,使模型能够精准计算注意力分数——这是神经网络判断数据重要性的核心机制。

两者结合的效果就是:PolarQuant实现极致的压缩,而QJL则以近乎可忽略的成本修正误差。据悉,谷歌计划在下个月的ICLR 2026会议上展示这项研究成果。

代码尚未公布,开发者社区已掀起复现潮

尽管谷歌尚未发布任何官方代码或集成库,全球的独立开发者们已经仅凭公开的论文,开始构建可运行的实现版本。这种速度在学术界和工业界都属罕见,既体现了TurboQuant数学设计的清晰性,也反映出KV缓存优化已是迫在眉睫的工程瓶颈。

有开发者在PyTorch中利用Triton自定义了内核,并在RTX 4090显卡上对Gemma 3 4B模型进行了测试。结果显示:在2比特精度下,模型的输出与未压缩的基准版本实现了逐字符完全一致。仅用2比特存储每个数值,量化后的模型就能与全精度版本给出字节级相同的回复,这初步验证了TurboQuant的理论保证。

另有开发者通过苹果的MLX框架,在Apple Silicon芯片上运行了搭载TurboQuant的35B参数模型,并在各量化等级的“大海捞针”测试中均取得了满分。在llama.cpp社区,已有三名开发者着手开发C语言与CUDA版本,其中一人表示18项测试全部通过,压缩比也与论文数据吻合。

当然,复现之路并非一帆风顺。一位早期开发者坦言,QJL误差校正模块的实现颇具挑战,粗暴的实现只会导致输出乱码。如果不能正确实现QJL对内积估算的偏差校正,量化误差会不断累积,最终使输出结果完全不可用。目前,主流的推理框架如vLLM、llama.cpp、Ollama等均未集成该技术,大家都在等待谷歌的官方代码或更明确的实现指引。这也正是开源社区的魅力所在——通过集体智慧快速验证前沿技术。

内存股市震荡,英伟达亦推竞品算法

市场的波动迅速而剧烈。除了美股内存股下跌,A股存储芯片板块也集体下挫,兆易创新、佰维存储等多只股票跌幅超过5%。但在多位分析师看来,这种波动或许有些反应过度。

富国银行分析师Andrew Rocha指出,TurboQuant确实直接冲击了AI系统的内存成本曲线。如果该技术被广泛采用,行业将不得不重新评估实际所需的内存容量。不过,他也提醒道,AI对内存的整体需求依然强劲,并且压缩算法已存在多年,并未从根本上颠覆硬件采购的大盘。

然而,市场的担忧也并非空穴来风。AI基础设施支出正以惊人的速度膨胀,仅Meta一家近期就计划投入数百亿美元用于专属算力。一项能将内存需求降低6倍的技术,虽然不会让总支出同步减少6倍(因为内存只是成本的一部分),但它会改变成本结构的比例。在这种千亿美元级别的投入下,任何小幅的效率提升都会被急剧放大。

值得注意的是,TurboQuant并非唯一即将在ICLR 2026亮相的KV缓存压缩技术。据了解,英伟达也推出了名为KVTC的算法,号称可实现20倍压缩,且精度损失不到1%。该算法在15亿至700亿参数的更大模型范围上进行了测试,采用基于主成分分析(PCA)的去相关和熵编码技术,部分思路借鉴自JPEG压缩。

与TurboQuant“即插即用”、与数据无关的设计不同,KVTC需要针对每个模型执行一次性校准步骤,离线计算PCA对齐矩阵。作为回报,它在处理长达8000个token的提示词时,可将首个token的输出延迟最高降低8倍(在H100上从约3秒缩短至380毫秒)。

英伟达的研究员Adrian Lancucki表示:“高效的KV缓存管理正变得至关重要。闲置的缓存必须迅速从GPU显存中移出,为其他用户腾出空间,并在对话恢复时快速加载。这些基础设施成本如今已体现在商用定价中。”

两种思路迥异却目标一致的压缩标准同期竞争,标志着KV缓存优化正从一个纯粹的研究课题,迅速演变为下一代AI生产系统的核心基础设施层。对于广大开发者和企业而言,这意味着更高效、更经济的AI应用即将成为可能。想了解更多AI前沿趋势和技术解析,欢迎来 云栈社区 的开发者板块交流探讨。

参考链接:
https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/
https://winbuzzer.com/2026/03/26/googles-turboquant-reduces-ai-llm-cache-memory-xcxwbn/
https://thenextweb.com/news/google-turboquant-ai-compression-memory-stocks




上一篇:Vue 3 TypeScript 实战:4个实用技巧告别类型报错与AnyScript
下一篇:Arm首款自研AGI CPU发布:专为AI数据中心设计,Meta抢下首单
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 22:26 , Processed in 0.739226 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表