云栈社区»论坛 › 技术文档「 Note & Doc 」 › MySQL千万级数据深度分页性能优化实战

4423 积分	1 好友	605 主题

发消息

MySQL千万级数据深度分页性能优化实战

发表于 2026-1-27 08:15:34 | 查看: 59| 回复: 0

“啪！”

刚点了一下后台管理系统的“下一页”，整个页面就像被冻住了一样，转圈转了快十秒钟，才极不情愿地吐出几条数据。这已经是本周第三次收到运营同事的抱怨了。你心里清楚，不是服务器挂了，也不是代码有Bug，而是那张承载了公司核心业务、早已突破三千万行记录的用户表，正在用最直接的方式抗议你那简单粗暴的 LIMIT 0, 10 分页查询。

更让人头疼的是，下周就要进行系统评审，CTO明确要求所有列表接口的95分位响应时间必须低于200毫秒。这道看似基础的“分页查询”题，瞬间从课本练习题升级为了决定项目生死、影响团队KPI的终极BOSS。

第一章：为什么你的分页会“慢得离谱”？

首先，我们得搞清楚病根在哪。绝大多数初级分页方案，都离不开下面这条经典的SQL语句：

-- 经典分页SQL：查询第100万页，每页10条
SELECT * FROM `user_order` ORDER BY `create_time` DESC LIMIT 1000000, 10;

这条语句看起来清晰明了，但它在千万级数据面前，就是一个不折不扣的“性能杀手”。它的执行过程可以概括为一个核心逻辑：问题就出在 OFFSET 1000000 这个操作上。数据库服务器必须忠实地先排序，然后数过前100万条记录，再把它们全部丢弃，最后才能拿到你想要的那10条。这个过程产生了巨大的无效计算和I/O。页码越深，需要跳过的数据就越多，性能呈线性下降，最终必然超时。

这就是经典的深度分页问题。理解了这一点，我们就明白，优化的核心思路就两个字：避开 OFFSET，或者说，避免数据的大规模跳过。

第二章：基础优化策略 —— 把“翻页”变成“翻书签”

既然不能傻傻地数数，那我们该怎么办？回忆一下我们读一本厚书的过程：我们不会从第一页开始数到第1000页，而是会用一个书签。下次打开书时，直接从书签处开始读。

数据库里的“书签”，就是上一次查询最后一条记录的排序字段值。这种技术被称为 “游标分页” 或 “键集分页”。

假设我们的 user_order 表以自增主键 id 排序，传统的 LIMIT OFFSET 查询第n页是这样：

-- 传统方式：查询第10001-10010条
SELECT * FROM `user_order` ORDER BY `id` ASC LIMIT 10000, 10;

使用游标分页后，流程变为：

第一页查询和之前一样。
获取第一页最后一条记录的 id，假设为 10010。
查询第二页时，将这个 id 作为“书签”。

-- 游标分页：记住上一页最后的id
-- Highlight: 核心在于用 WHERE id > ? 替代了 LIMIT OFFSET
SELECT * FROM `user_order` WHERE `id` > 10010 ORDER BY `id` ASC LIMIT 10;

看，OFFSET 消失了！ 数据库可以利用 id 上的主键索引，像指针一样直接定位到 id > 10010 的位置，然后立刻开始读取后面的10条数据。无论你要查多深的数据，这个操作的成本都几乎恒定。

实战技巧与避坑指南：

必须保证排序字段唯一且有序： 通常使用自增主键或时间戳+唯一ID的组合。如果只用 create_time 排序，同一毫秒有多条记录，会导致分页时数据重复或丢失。
只能“下一页”，难以“上一页”和跳页： 这是游标分页最大的局限。它非常适合无限滚动的Feed流场景，但不太适合需要跳转到任意页码的管理后台。
代码示例： 后端传递给前端的，不再是 page_num，而是一个 next_cursor（即本次查询最后一条记录的排序键值）。

// 示例：基于ID的游标分页查询
public PageData<UserOrder> queryOrders(Long lastId, Integer pageSize) {
    String sql = "SELECT * FROM user_order WHERE 1=1 ";
    if (lastId != null && lastId > 0) {
        // Highlight: 关键的一行，用WHERE条件实现高效定位
        sql += "AND id > ? ";
    }
    sql += "ORDER BY id ASC LIMIT ?";
    // 执行查询，并将结果集中的最后一个id作为新的lastId返回给前端
    return jdbcTemplate.query(...);
}

第三章：进阶架构策略 —— 请个“图书管理员”：二级索引与覆盖索引

如果排序字段不是主键 id，而是一个普通的业务字段，比如 amount（订单金额），该怎么办？直接 WHERE amount > ? 可能导致性能不佳，因为 amount 上的索引是辅助索引。

这里，数据库就像一个没有目录只有正文的图书馆。你要找“金额大于1000的第10本书”，管理员（数据库）有两种做法：

全表扫描（慢）： 一本本翻所有书。
利用“图书卡片”（索引）： 数据库为 amount 建立了一个独立的“卡片柜”（二级索引B+树）。每张卡片（索引条目）上写着金额 amount 和对应的图书编号 id。

优化思路是：先查卡片柜，再按图索骥。这就是 “延迟关联” 技巧。

-- 低效查询：直接对非主键字段排序并分页
SELECT * FROM `user_order` ORDER BY `amount` DESC, `id` DESC LIMIT 1000000, 10;

-- 优化后的延迟关联查询
-- 步骤1: 在“卡片柜”（二级索引）里快速找到目标卡片的编号
SELECT `id` FROM `user_order`
ORDER BY `amount` DESC, `id` DESC
LIMIT 1000000, 10;

-- 步骤2: 根据编号（id）回“主书库”（主键索引）精准拿书
SELECT * FROM `user_order` WHERE `id` IN ( ...上面查出来的id列表... );

第一步在紧凑的二级索引里进行 LIMIT OFFSET，虽然仍有跳过，但因为索引体积小很多，代价大幅降低。第二步的 IN 查询利用主键索引，速度极快。两者结合，性能提升往往是数量级的。这种优化思路是应对复杂系统设计中高并发查询场景的经典方案。

更进一步：覆盖索引
如果我们的查询只需要 id, amount, product_name 几个字段，甚至可以创建一个 (amount, id, product_name) 的覆盖索引。这样，第一步在索引里就能拿到所有需要的数据，连第二步的回表都省了，速度最快。

-- 创建覆盖索引
ALTER TABLE `user_order` ADD INDEX `idx_amount_cover` (`amount`, `id`, `product_name`);

-- 查询可直接从索引中取得数据，无需回表
SELECT `id`, `amount`, `product_name` FROM `user_order`
ORDER BY `amount` DESC, `id` DESC
LIMIT 1000000, 10;

第四章：终极策略 —— 当技术遇到业务：允许“不精确”

以上两种都是纯技术优化。但在很多真实的业务场景，尤其是面向用户的前端列表，用户真的需要绝对精确、能跳到任意页的分页吗？

回想一下你在淘宝、京东搜索商品。当结果超过100页时，它通常不会让你直接跳到第86页，而是提供一个大概的页数范围供你选择。这背后，可能就是一种 “业务妥协式”的分页。

方案：允许近似计数与限制最大页码

使用 EXPLAIN 快速获取近似行数： 对于千万级大表，SELECT COUNT(*) 非常慢。而 EXPLAIN 语句可以瞬间返回查询优化器估算的行数，虽然不精确，但用于判断数据量级（百、千、万、百万）足够用了。
限制可跳转的最大深度： 与产品经理达成一致，例如搜索结果最多只展示100页。结合游标分页，我们只需要预估前100页的数据位置即可，计算量大大减少。
“下一页”为主的交互： 引导用户使用筛选、排序和“加载更多”来代替直接跳页。这不仅是技术优化，更是符合用户习惯的产品设计。

记得在我负责的一个电商后台项目中，运营坚持要能精确跳转到任意页查看所有历史订单。我们用了各种索引优化，到了五千万数据时，查询依然缓慢。最后，我们和产品进行了一次讨论，用数据报表说服了他们：99%的深度跳页查询行为，都是运营在做定向抽查。最终，我们增加了一个“订单导出”和“指定时间范围”筛选的功能，满足了他们的核心需求，同时将列表分页的最大可查询深度限制在了3个月内的数据（大约500万行）。这个折中方案，让系统性能提升了十倍。

【实战总结】

面对千万数据分页，没有银弹，只有最适合场景的组合拳。记住这份行动清单：

彻底放弃深度 LIMIT OFFSET： 这是所有优化的前提。
首选游标分页（书签模式）： 适用于无限滚动、连续浏览场景。记住用唯一有序字段作为游标。
善用延迟关联与覆盖索引： 当必须按非主键字段排序时，这是你的王牌。先通过二级索引定位ID，再回表或直接覆盖查询。
敢于进行业务妥协： 与产品沟通，用“近似计数”、“限制最大深度”、“强化筛选”来换取巨大的性能提升。技术是为业务服务的。
监控与分级： 不是所有列表都需要极致优化。对访问频率最高、体验要求最苛刻的核心列表使用终极方案，对次要列表可采用基础优化。

面试官追问

“你提到游标分页不能跳页，那如果产品经理一定要实现一个可以跳转到任意页，并且数据量很大的后台列表，你会怎么设计？”

这时，你可以展开一个架构层面的讨论：

数据分级： 将数据分为“热数据”（近期，如3个月内）和“冷数据”（历史）。热数据用游标或优化后的分页，体验极佳；冷数据提供精确但较慢的查询或导出功能。
异步与预计算： 对于固定的筛选条件，可以异步任务提前将结果集的主键ID分页存储到Redis中，前端跳页时直接获取ID列表再去查详情。
引入搜索引擎： 将数据同步到Elasticsearch中，利用其强大的分片和打分机制来处理复杂筛选和分页，但这会带来数据一致性和维护复杂度的挑战。

通过合理的算法与数据结构设计，结合业务理解，才能真正解决大规模数据下的访问难题。希望这些在Java后端开发中常见的分页优化思路，能为你带来启发。如果你有更复杂的场景或独特的解决方案，欢迎在云栈社区与更多开发者交流探讨。

上一篇：React Hook Form 与 Zod 实战：7个陷阱与大规模表单架构设计
下一篇：基于Gemini模型，手绘草图一键生成可编辑UI：Google Stitch设计工具深度解析

MySQL, 分页查询, 索引优化, 性能优化, Java