云栈社区»论坛 › 技术文档「 Note & Doc 」 › MySQL索引为何选B+树而非B树？深度解析磁盘IO与数据结构 ...

发回帖发新帖

3697 积分	0 好友	508 主题

发消息

MySQL索引为何选B+树而非B树？深度解析磁盘IO与数据结构

发表于 2026-1-18 00:19:25 | 查看: 59| 回复: 0

“MySQL的索引底层是什么数据结构？”

听到这个面试题，我嘴角微微上扬——送分题！ 我清了清嗓子，准备展示我的“专业”：
“MySQL的InnoDB存储引擎使用B+树作为索引的数据结构，MyISAM也是B+树...”

“好，”面试官点点头，“那为什么是B+树，而不是B树呢？”

我愣住了。这个问题，我背过答案：“因为B+树更适合磁盘存储...”

“为什么更适合？”面试官追问。

“因为...B+树的非叶子节点不存数据，所以能存更多键值，树的高度更低...”

“那为什么B树的非叶子节点要存数据？B树的设计者傻吗？”

我：“......”

那一刻我才明白：我背了三年的“标准答案”，其实什么都没懂。

第一章：那场让我怀疑人生的面试

1.1 我以为我懂了B+树

在准备面试时，我“精通”B+树：

B+树：非叶子节点只存key，叶子节点存数据和key，叶子节点有指针连接
B树：每个节点都存key和data
B+树查询稳定，B树不稳定
B+树更适合范围查询
“完美！”我觉得自己已经掌握了索引的精髓。

1.2 面试官的“灵魂拷问”

在我背完B+树的“优点”后，面试官开始发问：

问题一： “你说B+树更适合磁盘存储，那你知道磁盘是怎么读数据的吗？一次磁盘IO读多少数据？”
我：“呃...磁盘按页读取？”

问题二： “MySQL的页大小是多少？B+树的一个节点大小是多少？”
我：“页大小...16KB？”

问题三： “你说B+树范围查询快，那如果我要查 SELECT * FROM users WHERE id BETWEEN 1000 AND 2000，B+树怎么查？B树又怎么查？”
我：“B+树顺着叶子节点链表走，B树...要回溯？”

问题四： “如果我的查询都是主键等值查询，比如 SELECT * FROM users WHERE id = 1234，B树和B+树哪个快？”
我：“应该...差不多？”

问题五： “你知道B树的全称是什么吗？为什么叫B树？”
我：“B-Tree？B是Balance的意思？”

面试官叹了口气：“B是Bayer，发明者的名字。B树的全称是Bayer‘s Balanced Tree。”

那天晚上，我失眠了。

第二章：B树 vs B+树，一场磁盘与内存的战争

2.1 B树：内存时代的产物

为了真正理解B树，我写了一个简单的B树实现：

// B树节点（简化版）
class BTreeNode {
    // 节点中的数据
    List<Entry> entries;
    // 子节点指针
    List<BTreeNode> children;

    class Entry {
        int key;
        Object data;  // B树的关键：数据和key在一起！
    }

    // 查找数据
    Object search(int key) {
        // 在当前节点中查找
        for (int i = 0; i < entries.size(); i++) {
            if (key == entries.get(i).key) {
                return entries.get(i).data;  // 找到就直接返回！
            }
            if (key < entries.get(i).key) {
                // 到子节点中查找
                return children.get(i).search(key);
            }
        }
        return null;
    }
}

B树的设计哲学：
“既然我找到了key，为什么不直接把data带走？”

这在内存中是合理的。内存访问是随机的，访问任何地址的成本几乎相同。

2.2 B+树：磁盘时代的妥协

再看B+树：

// B+树节点（简化版）
class BPlusTreeNode {
    // 只存key，不存data！
    List<Integer> keys;
    List<BPlusTreeNode> children;

    // 查找key，返回叶子节点位置
    BPlusTreeLeafNode search(int key) {
        // 在当前节点中查找key的位置
        int i = 0;
        while (i < keys.size() && key >= keys.get(i)) {
            i++;
        }

        if (this instanceof BPlusTreeLeafNode) {
            // 已经是叶子节点
            return (BPlusTreeLeafNode) this;
        } else {
            // 继续向下查找
            return children.get(i).search(key);
        }
    }
}

// B+树叶子节点
class BPlusTreeLeafNode extends BPlusTreeNode {
    // 叶子节点才存data！
    List<Object> data;
    BPlusTreeLeafNode next;  // 指向下一个叶子节点

    // 在叶子节点中查找数据
    Object getData(int key) {
        for (int i = 0; i < keys.size(); i++) {
            if (keys.get(i) == key) {
                return data.get(i);
            }
        }
        return null;
    }
}

B+树的设计哲学：
“磁盘IO太贵了！我要尽量减少IO次数。”

2.3 磁盘IO：真正的性能杀手

为了理解为什么磁盘IO这么重要，我写了个测试：

public class DiskIOTest {
    public static void main(String[] args) {
        // 模拟磁盘访问
        long memoryAccessTime = 100;  // 纳秒级
        long diskAccessTime = 10_000_000;  // 10毫秒

        System.out.println("一次磁盘IO ≈ " + (diskAccessTime / memoryAccessTime) + " 次内存访问");
        // 输出：一次磁盘IO ≈ 100000 次内存访问

        // B树 vs B+树的IO次数对比
        int totalRecords = 10_000_000;  // 1000万条数据

        // 假设每个节点存100个键值
        // B树：树高度 = log_100(10,000,000) ≈ 4
        // B+树：非叶子节点只存key，假设能存200个key
        //       树高度 = log_200(10,000,000) ≈ 3

        System.out.println("B树查找可能需要: 4次磁盘IO");
        System.out.println("B+树查找可能需要: 3次磁盘IO");
        System.out.println("节省时间: " + (4-3)*diskAccessTime + " 纳秒 = " + (4-3)*10 + " 毫秒");
    }
}

关键发现： 减少一次磁盘IO，就能节省10毫秒！对于高并发系统，这是巨大的性能提升。

第三章：MySQL的页设计与B+树的完美结合

3.1 MySQL的页：16KB的智慧

MySQL的所有数据（包括索引）都存储在页（Page） 中。默认页大小是16KB。

-- 查看页大小
SHOW VARIABLES LIKE 'innodb_page_size';
-- 通常是16384字节（16KB）

为什么是16KB？这是经过大量测试得出的平衡点：

太小：页太多，管理开销大
太大：单个页加载慢，内存浪费

3.2 B+树节点与页的对应关系

在InnoDB中，一个B+树节点就是一个页！

// InnoDB索引页结构（简化理解）
class IndexPage {
    // 页头：38字节
    PageHeader header;

    // 用户记录（B+树节点数据）
    List<IndexRecord> records;

    // 页目录（加速页内查找）
    PageDirectory directory;

    // 页尾：8字节
    PageTrailer trailer;
}

// 假设我们有一个用户表
CREATE TABLE users(
    id INT PRIMARY KEY,      -- 4字节
    name VARCHAR(50),        -- 平均25字节
    email VARCHAR(100),      -- 平均30字节
    created_at TIMESTAMP     -- 4字节
);

// 一条记录大约：4 + 25 + 30 + 4 = 63字节
// 一个页能存多少条记录？
int recordsPerPage = 16384 / 63 ≈ 260条

3.3 B树 vs B+树：谁能存更多key？

B树节点：既存key，又存data

// B树节点容量计算
class BTreeNodeCapacity {
    // 假设key为int（4字节），data为指针（6字节）
    int keySize = 4;      // 键大小
    int dataSize = 6;     // 数据指针大小
    int pointerSize = 6;  // 子节点指针大小

    // 每个entry占：key + data + child_pointer
    int entrySize = keySize + dataSize + pointerSize;

    // 16KB页能存多少个entry？
    int entriesPerPage = 16384 / entrySize;
    // = 16384 / (4+6+6) = 16384 / 16 ≈ 1024个

    // 树高度计算（存1000万数据）
    // log_1024(10,000,000) ≈ 2.3 → 3层
}

B+树非叶子节点：只存key和指针

class BPlusTreeNonLeafCapacity {
    // 只存key和child_pointer
    int keySize = 4;      // 键大小
    int pointerSize = 6;  // 子节点指针大小

    // 每个entry占：key + child_pointer
    int entrySize = keySize + pointerSize;

    // 16KB页能存多少个entry？
    int entriesPerPage = 16384 / entrySize;
    // = 16384 / (4+6) = 16384 / 10 ≈ 1638个

    // 树高度计算（存1000万数据）
    // log_1638(10,000,000) ≈ 2.1 → 3层
    // 实际上B+树还能存更多，因为页目录优化了页内查找
}

B+树叶子节点：存key和完整数据

class BPlusTreeLeafCapacity {
    // 存key和完整数据
    int keySize = 4;      // 键大小
    int recordSize = 63;  // 完整记录大小

    // 每个entry占：key + record
    int entrySize = keySize + recordSize;

    // 16KB页能存多少个完整记录？
    int recordsPerPage = 16384 / entrySize;
    // = 16384 / (4+63) = 16384 / 67 ≈ 244条
}

第四章：范围查询：B+树的杀手锏

4.1 我踩过的坑：那个慢查询

去年，我们系统有个慢查询：

-- 查找最近一周注册的用户
SELECT * FROM users
WHERE created_at BETWEEN '2023-01-01' AND '2023-01-07'
ORDER BY created_at;

这个查询要5秒！为什么？

4.2 B树的范围查询：不断的回溯

如果用B树索引 created_at：

1. 找到第一个满足条件的记录（id=1000）
2. 读取数据
3. 回到B树，找下一个节点
4. 可能在不同层之间来回跳转
5. 大量的随机IO！

就像在图书馆找书：

B树：找到第一本书，放回书架，查目录找第二本书的位置，走过去...
大量的“走来走去”

4.3 B+树的范围查询：顺藤摸瓜

B+树的叶子节点有链表连接：

// B+树范围查询的伪代码
List<User> rangeQuery(BPlusTree tree, int startKey, int endKey) {
    List<User> result = new ArrayList<>();

    // 1. 找到起始key所在的叶子节点（一次IO）
    BPlusTreeLeafNode startNode = tree.search(startKey);

    // 2. 在叶子节点中顺序读取
    BPlusTreeLeafNode current = startNode;
    while (current != null) {
        for (int i = 0; i < current.keys.size(); i++) {
            int key = current.keys.get(i);
            if (key > endKey) {
                return result;  // 超过范围，结束
            }
            if (key >= startKey) {
                result.add(current.data.get(i));
            }
        }
        // 3. 通过链表直接访问下一个叶子节点（顺序IO！）
        current = current.next;
    }

    return result;
}

关键优势：顺序IO vs 随机IO

顺序IO：磁头几乎不动，连续读取
随机IO：磁头来回跳动，寻道时间长

对于机械硬盘，顺序IO比随机IO快100倍以上！对于SSD，顺序IO也比随机IO快5-10倍！

4.4 覆盖索引：B+树的另一个魔法

-- 假设有联合索引 (department, salary)
CREATE INDEX idx_dept_salary ON employees(department, salary);

-- 查询：统计每个部门的平均工资
SELECT department, AVG(salary)
FROM employees
GROUP BY department;

这个查询不需要回表！

索引 (department, salary)包含了所有需要的数据
B+树的叶子节点直接提供salary值
只需要扫描索引，不需要访问数据行

如果是B树，即使使用覆盖索引，也需要访问各个节点的data部分，效率更低。

第五章：锁与并发：B+树的隐藏优势

5.1 我遇到的死锁问题

我们的订单表经常死锁：

-- 事务1
BEGIN;
SELECT * FROM orders WHERE user_id = 100 FOR UPDATE;
UPDATE orders SET status = 'paid' WHERE id = 500;
COMMIT;

-- 事务2
BEGIN;
SELECT * FROM orders WHERE user_id = 200 FOR UPDATE;
UPDATE orders SET status = 'paid' WHERE id = 500;  -- 死锁！
COMMIT;

5.2 B+树的锁粒度更细

由于B+树的所有数据都在叶子节点，且叶子节点有链表连接，InnoDB可以实现更细粒度的锁：

行锁的实现：

// InnoDB的行锁（简化理解）
class InnoDBRowLock {
    // 锁住的是叶子节点中的具体记录
    void lockRow(BPlusTreeLeafNode leaf, int recordIndex) {
        // 只锁这一行，不影响其他行
    }

    // 范围锁：锁住一个范围的记录
    void lockRange(BPlusTreeLeafNode startLeaf, int startIndex,
                   BPlusTreeLeafNode endLeaf, int endIndex) {
        // 由于叶子节点有链表，可以高效地锁住一个范围
        BPlusTreeLeafNode current = startLeaf;
        while (current != endLeaf) {
            // 锁住当前节点的相关记录
            lockNodeRecords(current);
            current = current.next;
        }
    }
}

B树的锁问题：

数据分布在所有节点
锁一个节点可能锁住多个不相关的数据
锁冲突更频繁

第六章：B树的合理场景

6.1 面试官的提醒

“不要觉得B树一无是处，”面试官说，“在某些场景下，B树比B+树更合适。”

场景一：内存数据库

Redis的Sorted Set底层用了跳表，但早期版本考虑过B树。为什么？
内存中，随机访问和顺序访问的代价差不多。B树的“找到key就拿到data”特性更有优势。

场景二：需要频繁单点查询的缓存

// 假设我们有一个热点数据缓存
class HotDataCache {
    // 数据量不大（比如1万条），完全在内存中
    // 查询模式：99%是单key查询，1%是范围查询

    // 用B树：平均查询路径更短
    BTree<Integer, Data> cache = new BTree<>();

    Data get(int key) {
        // B树：可能在非叶子节点就找到数据并返回
        return cache.search(key);
    }
}

场景三：写多读少的场景
B树的节点分裂和合并更简单，因为数据就在节点中。

// B树插入（简化）
void BTreeInsert(BTreeNode node, int key, Object data) {
    // 找到插入位置
    // 如果节点满了，分裂节点
    // 分裂时，数据和key一起移动
}

// B+树插入
void BPlusTreeInsert(BPlusTreeNode node, int key, Object data) {
    // 找到对应的叶子节点
    // 在叶子节点插入（key, data）
    // 如果叶子节点满了，分裂叶子节点
    // 还要更新父节点的key
    // 更复杂的维护操作
}

第七章：从理论到实践：我的索引优化之路

7.1 那个把CPU跑到100%的查询

回到我最初的问题。我们的慢查询：

SELECT * FROM orders
WHERE user_id = 100
AND status = 'pending'
AND created_at > '2023-01-01'
ORDER BY created_at DESC
LIMIT 10;

表结构：

CREATE TABLE orders (
    id INT PRIMARY KEY,
    user_id INT,
    status VARCHAR(20),
    created_at DATETIME,
    -- 还有很多其他字段...
);

-- 当时的索引
INDEX idx_user (user_id)
INDEX idx_created (created_at)

问题： 这两个索引都用不上！

先用 idx_user 找到user_id=100的所有订单（可能1000条）
然后对这1000条在内存中过滤status和created_at
最后排序，取前10条

7.2 正确的索引设计

理解了B+树的原理后，我设计了新索引：

-- 联合索引，考虑B+树的排序特性
CREATE INDEX idx_user_status_created ON orders(user_id, status, created_at DESC);

B+树如何存储这个索引：

第一层：按user_id排序
第二层：相同user_id内，按status排序
第三层：相同user_id和status内，按created_at倒序

查询过程：

在B+树中快速定位到 user_id=100, status='pending' 的位置
因为created_at是倒序，最新的记录就在最前面
顺序读取10条记录，返回
不需要排序，不需要临时表！

7.3 性能对比

优化前：

扫描1000条记录
内存过滤
排序1000条记录
耗时：200ms

优化后：

扫描10条记录
不需要排序
耗时：5ms

性能提升40倍！

第八章：面试终极答案

现在，当面试官再问我“为什么MySQL用B+树不用B树”时，我会这样回答：

“这是一个关于磁盘特性和使用场景的经典权衡。

从磁盘IO角度：

B+树的非叶子节点只存key，能存更多key，树更矮，减少IO次数
B+树的叶子节点形成链表，范围查询时是顺序IO，比B树的随机IO快得多
MySQL的页大小16KB，与B+树节点完美匹配

从查询性能角度：

B+树查询稳定，每次都要到叶子节点，O(logN)稳定
B树查询不稳定，可能在非叶子节点就找到数据，但最坏情况还是要到叶子节点
B+树更适合范围查询和排序

从工程实现角度：

B+树的所有数据都在叶子节点，锁粒度更细，并发性能更好
B+树的叶子节点链表方便全表扫描
覆盖索引在B+树上效率更高

但是，B树并非一无是处。在内存数据库或纯随机查询的场景下，B树的平均性能可能更好。MySQL选择B+树，是因为它更符合磁盘数据库和混合工作负载的需求。

更重要的是，理解这个选择背后的原因，能帮助我们更好地设计索引。比如，知道B+树是前缀匹配，就知道联合索引 (a,b,c) 能用于查询 WHERE a=? AND b=?，但不能用于 WHERE b=? AND c=?。

所以，这不是一个‘B+树更好’的简单结论，而是一个‘在MySQL的场景下，B+树更合适’的工程决策。”

希望这篇从面试挫败到深入理解的经验分享，能帮助你在未来的数据库索引设计和数据结构相关问题上游刃有余。

上一篇：PCIe Gen6物理层详解：FLIT模式如何优化传输效率与信号完整性
下一篇：Clonezilla Live 3.3.0 开源磁盘克隆工具：系统备份与恢复实战指南

MySQL, 数据库索引, B＋树, 数据结构, 磁盘IO