云栈社区»论坛 › 技术文档「 Note & Doc 」 › LZ压缩算法简史：从HTTP的Gzip到Zip文件的底层原理 ...

发回帖发新帖

5565 积分	0 好友	741 主题

发消息

LZ压缩算法简史：从HTTP的Gzip到Zip文件的底层原理

发表于 2026-1-24 07:43:22 | 查看: 186| 回复: 0

作为普通用户，你可能从未意识到，你浏览的每一个网页，在传输过程中大都经过了一次“瘦身”。

没错，服务器发送给你的 HTML、CSS 等文件，往往不是原始大小。如果你像开发者一样，按下 F12 打开浏览器的开发者工具，查看网络请求，很可能会看到这样的响应头信息：

HTTP响应头显示Content-Encoding为gzip

这张图的关键在于 Content-Encoding: gzip 这一行。它的潜台词是：“为了节省带宽、加快传输速度，我已经用 gzip 算法把内容压缩过了，你（浏览器）收到后需要先解压才能正常显示。”

在 HTTP 协议中，除了 gzip，常见的压缩算法还有 deflate、br（Brotli）等。这些算法看似五花八门，但追根溯源，很多都有一个共同的“祖先”：LZ 算法。

LZ 取自两位计算机科学家的姓氏：Abraham Lempel 和 Jacob Ziv。

Lempel和Ziv的肖像

这两位算法界的“老祖”在 2023 年相继离世，都属高寿。他们的智慧结晶，至今仍在全世界的每一比特数据流中默默工作。

起源：从最优编码到实时压缩

数据压缩主要分为两大类：有损压缩（如 MP3、JPEG）和无损压缩。前者通过舍弃一些人眼/人耳不敏感的信息来换取更大的压缩率；后者则要求解压后必须与原始数据完全一致，一个比特都不能错。

在 1948 年香农创立信息论后，研究者们便开始探索一个问题：如何为一段信息找到一种“最优”的编码方式，使其总长度最短？香农和他的学生法诺率先提出了香农-法诺编码。

香农与法诺的肖像

这种方法通过将符号按概率分组，自顶向下构建一棵二叉树。

不同数据结构的可视化图示

然而，香农-法诺编码并非总是最优解，且其生成的编码不一定是“前缀码”，可能导致解码歧义。后来，法诺在麻省理工学院教授信息论时，给学生们出了一道选择题：要么参加期末考试，要么尝试改进现有的数据压缩算法。

一位名叫霍夫曼的研究生选择了后者。他花了数月时间，一度想要放弃。就在他把笔记扔进垃圾桶的前一刻，一个优雅的想法闪过脑海：为什么不根据字符出现的频率，自底向上地构建二叉树呢？ 这就是著名的霍夫曼编码算法。

霍夫曼算法实现了两个理想目标：

任何一个字符的编码，都不是其他字符编码的前缀（即前缀码）。
在满足前缀码的条件下，编码的总长度最小。

霍夫曼编码虽好，却有一个关键限制：它需要预先知道所有待编码符号出现的概率。在许多实际应用（尤其是实时通信）中，我们无法预知未来数据的统计特性。这个问题随着上世纪 70 年代互联网的萌芽而日益凸显。人们迫切需要一种能够边读取数据、边进行压缩的算法。

突破：LZ77与滑动窗口的诞生

以色列理工学院的 Ziv 和 Lempel 联手向这一挑战发起了进攻。他们是绝佳的搭档：Ziv 深谙统计学与信息论，而 Lempel 则在布尔代数和计算机科学领域造诣颇深。

Ziv和Lempel在黑板前讨论

1977年，两人同在贝尔实验室进行学术休假（一种带薪的长期研究假期）。就在这段宝贵的时间里，他们合作发表了里程碑式的论文《顺序数据压缩的通用算法》，提出了 LZ77 算法。

LZ77 的核心思想是“滑动窗口”和“动态字典”。它不再纠结于单个字符的频率，而是着眼于寻找重复出现的数据片段（如字符串、字节序列）。算法维护一个“历史缓冲区”（滑动窗口），对于当前待编码的数据，它会尝试在历史记录中找到最长的匹配字符串，然后用一个（距离偏移量，匹配长度）对来替代这段数据本身。

LZ77编码过程示意图

这张图清晰地展示了 LZ77 的编码过程。它最大的优点在于“通用性”和“在线性”：适用于任何类型的数据，无需预处理统计概率，只需一次遍历就能实现很高的压缩比。

次年，他们对算法进行了改进，提出了 LZ78。LZ78 能显式地构建并维护一个“字典”，压缩和解压效率更高，为后续许多变种算法奠定了基础。

乱战：从实验室走向千家万户

令人意外的是，如此强大的 LZ 算法在问世后的好几年里，主要停留在学术圈。直到 1984 年，DEC 公司的 Terry Welch 在 LZ78 的基础上创造了 LZW 算法，并被应用到 Unix 系统的 compress 程序中。随着 Unix 的流行，LZ 算法终于驶入了发展的快车道，但也开启了一个“群雄割据”的时代。

ARC 与 PKARC 之争：1985年，Thom Henderson 为了方便 BBS 下载，编写了能将多个文件打包压缩的 ARC 软件。1986年，程序员 Phillip Katz 嫌 ARC 速度慢，用汇编重写了核心代码，推出了更快的 PKARC 并开始销售。

Henderson 以侵犯版权为由起诉 Katz 并胜诉。这场官司反而激发了 Katz 的斗志。
ZIP 格式的诞生：Katz 潜心研究 LZ77 和霍夫曼编码，将二者结合，创造了新的压缩算法——Deflate，以及全新的文件格式——ZIP，并推出了软件 PKZIP。

PKZIP 在压缩率和速度上全面超越 ARC，迅速统治了 DOS 时代。由于其格式公开，开源社区也推出了免费的 zip 和 unzip 工具。
Gzip 与 WinZip：随后，Jean-loup Gailly 和 Mark Adler 基于 Deflate 算法开发了著名的 gzip（.gz 文件格式及配套工具），取代了 Unix 上的 compress。

而在 Windows 世界，1991 年 Nico Mak 为 PKZIP（后改用开源代码）制作了一个图形前端——WinZip。

WinZip 凭借友好的图形界面风靡全球，成为 90 年代最成功的共享软件之一。最终，微软将 ZIP 格式的支持直接内置到 Windows 系统中，使其成为了事实上的标准。