
真没想到,2023年在AMD实习时做的深度学习量化和压缩工作,现在又被我捡了回来。
简单回顾一下我的技术路径:
- 2021:学习 Golang 和 Kubernetes
- 2022:从事前端开发
- 2023:上半年做深度学习量化压缩,下半年转向 LLM 微调
- 2024:探索 WebAgent 和 CodeAgent
而现在,我打开了全新的领域:LLM compression(大模型压缩)与广告系统。在这两个领域我都算新手,所以今年的总结更多是个人阶段性的心得与思考。
年初:与 LLM Agent 的告别
当整个行业都在竞相将模型规模(Scaling)推向数百B甚至1T参数时,背后巨额的GPU成本是难以想象的。
除了像 DeepSeek 这样通过极致工程优化来打磨模型的公司,其他玩家大多在硬抗价格战。更有甚者,如豆包,以几乎不盈利的姿态做到了上亿的日活跃用户。
正是在 DeepSeek R1 发布前夕,我辞去了在 Qwen 的实习,正式与 LLM Agent 领域告别。主要原因在于,我感到 Agent 领域似乎进入了瓶颈期——日常工作逐渐演变为配置环境、清洗数据和查看案例,创新空间变得有限。
另一个次要原因是,我预感到 Agent 的许多能力会越来越偏向应用层,并可能被基础模型能力的快速提升所“吞噬”。
我还年轻,不希望自己工作多年后,对模型训练和架构的理解仍浮于表面,连 PyTorch 的基础算子都不熟悉,而仅仅停留在如何采集数据、如何构建工作流上。
当然,那时的我还没完全意识到强化学习(RL)的神奇魔力,开源社区的主流方法也仍在沿袭 DPO 的路线。但隐隐约约地,我在面试 LLM 相关岗位时,遇到强化学习问题的频率越来越高。
随后,DeepSeek 为大家开启了“推理时代”。在我看来,这个时代的序幕并非由 o1 拉开,而是由 DeepSeek 开启的。在这之后,Agent 领域的 MCP、Claude Code、DeepResearch 等产品相继爆火,但我更多是保持关注。从产品角度看,它们似乎并非为我这样的 AI 技术研究者量身定制。做 GUI Agent 的人也越来越多,但我仍然没有看到“杀手级应用”出现的明确曙光。
所谓的告别也并非完全割裂。我之前构思了一篇关于 Agent 评测基准的文章,仍打算完善并投稿。期间经历了一些波折,目前尚未成功,或许来年再看机会吧。
年中:深入模型压缩的实战
正如开头所说,我的新方向是 LLM 压缩与广告系统。与开放式的用户问答不同,搜索、广告、推荐(搜广推)领域对推理延迟有着极其严格的要求,省下来的每一毫秒延迟都能转化为实实在在的收益。同时,计算成本过高的模型,其投资回报率(ROI)也很难提升。
那么,在保证效果的前提下,如何继续扩展模型能力呢?这需要借鉴 KV Cache 的核心思想:以存储换计算。
然而,KV Cache 的大小如果乘以海量的用户规模,将是一个天文数字,对存储和带宽都构成巨大挑战。
这就对模型剪枝、压缩、量化等技术提出了迫切需求。激进的压缩倍数势必带来模型效果的损失,因此我们的目标有两个:一是尽可能寻找高效的压缩方法,在压缩比和效果损失之间取得最佳平衡;二是探索一些低计算开销的手段来弥补因压缩带来的性能下降。
在这段时间里,我重新拾起了许多量化压缩技术,并研读了大量关于稀疏注意力(SparseAttention)和 KV 压缩的论文。
尽管搜广推的业务范式与通用 LLM 存在显著差异,像 MoBA、NSA 等方法无法直接套用到我们的场景中,但我从中汲取了许多灵感。最终,我们在可接受的设定下达到了预期的效果。
对我个人而言,收获是丰厚的。现在我对 PyTorch 和底层算子的理解更加深入,对 Transformer 的诸多设计细节也了然于心。最近,我也开始研究线性注意力(Linear Attention),并正在整理相关的学习笔记。
年尾与展望
年度冲刺阶段即将到来,希望一切顺利!
展望2026年,我的目标是:多读论文,深化数学基础。
对于同样在技术道路上探索的开发者,如果想了解更多前沿的 开源模型 动态或进行技术交流,可以关注云栈社区,那里汇聚了许多同行。
作者:YoRHaHa,已获作者授权发布
来源:https://zhuanlan.zhihu.com/p/1988084980396622507