云栈社区»论坛 › 技术文档「 Note & Doc 」 › Linux磁盘IO性能瓶颈排查实战：iostat与iotop工具详解与案例解析 ...

发回帖发新帖

5638 积分	0 好友	750 主题

发消息

Linux磁盘IO性能瓶颈排查实战：iostat与iotop工具详解与案例解析

发表于 2026-2-7 15:15:37 | 查看: 325| 回复: 0

一、概述

1.1 背景介绍

磁盘IO问题时常是系统性能的“隐形杀手”，它不像CPU或内存使用率那样直观，却能让整个系统响应变得异常缓慢。在云原生与容器化普及的当下，多个容器共享宿主机磁盘资源，使得IO问题的排查变得更加复杂。本文将从一个实战视角，带你深入Linux IO子系统，系统掌握 iostat、iotop 等核心监控工具的使用技巧与深度分析方法。

1.2 技术特点

多层次分析：从应用层、文件系统层到块设备层，实现全链路IO问题定位。
实时监控：iostat、iotop 提供实时、直观的IO性能指标。
精准定位：利用 blktrace 等工具可追踪到单个IO请求的生命周期。
调优灵活：涉及IO调度器选择、预读参数、文件系统挂载选项等多维度调优点。

1.3 适用场景

系统响应变慢：系统负载（load average）很高，但CPU使用率不高，疑似IO等待（%iowait）导致。
数据库性能下降：如 MySQL、PostgreSQL 等对IO延迟极其敏感的数据库应用出现性能波动。
日志风暴：应用程序配置不当，产生大量日志写入，打满磁盘IO带宽。
容器IO隔离问题：在 Kubernetes 环境下，排查某个IO密集型Pod影响整个节点性能的情况。
SSD性能衰减：固态硬盘在长期使用后，性能出现不符合预期的下降。

1.4 环境要求

组件	版本要求	说明
操作系统	CentOS 8+/Ubuntu 22.04+/Rocky Linux 9	推荐使用较新的发行版
内核版本	5.15+	更好地支持BPF和新版IO调度器
sysstat	12.0+	提供 `iostat`、`pidstat` 等工具
iotop	0.6+	用于进程级别的IO监控
blktrace	1.3+	块设备层IO请求追踪工具

二、详细步骤

2.1 准备工作

2.1.1 理解Linux IO模型

在开始排查前，有必要了解一个简化的Linux IO路径，这有助于理解后续工具监控的数据来源于哪一层：

应用程序
    ↓
VFS (虚拟文件系统)
    ↓
Page Cache (页缓存)
    ↓
文件系统 (ext4/xfs/btrfs)
    ↓
Block Layer (块设备层)
    ↓
IO Scheduler (IO调度器)
    ↓
Device Driver (设备驱动)
    ↓
物理磁盘 (HDD/SSD/NVMe)

关键概念解释：

Page Cache：Linux会将读取的数据缓存在内存中，写入操作通常也是先写入缓存，再由内核线程异步刷入磁盘，这能极大提升性能。
IO Scheduler：位于块设备层，决定IO请求的处理顺序与合并策略，不同调度器适用于不同场景。
Direct IO：绕过Page Cache，直接对磁盘进行读写。常用于数据库等需要自己管理缓存的应用程序。

2.1.2 安装必要工具

# RHEL/CentOS/Rocky Linux
sudo dnf install -y sysstat iotop blktrace perf bcc-tools

# Ubuntu/Debian
sudo apt update
sudo apt install -y sysstat iotop blktrace linux-tools-common bpfcc-tools

# 验证安装
iostat -V
iotop --version

2.1.3 确认磁盘设备信息

# 查看块设备列表及关键属性
lsblk -d -o NAME,SIZE,TYPE,ROTA,SCHED,MODEL

# 示例输出：
# NAME    SIZE TYPE ROTA SCHED       MODEL
# sda     500G disk    1 mq-deadline SAMSUNG_SSD
# nvme0n1 1T   disk    0 none        Samsung_990_PRO

# ROTA=1 表示机械硬盘（Rotational），ROTA=0 表示SSD
# SCHED 显示当前使用的IO调度器

2.2 iostat 核心指标详解

2.2.1 基础用法

# 每2秒刷新一次，显示扩展信息（-x）
iostat -xz 2

# 只看特定设备（例如sda和nvme0n1）
iostat -xz -d sda nvme0n1 2

# 显示时间戳（-t），便于与系统日志时间对照
iostat -xzt 2

2.2.2 关键指标解读

执行以下命令并观察输出：

iostat -xz 1 3

输出示例及核心指标解读：

Device  r/s    w/s    rkB/s   wkB/s  rrqm/s wrqm/s  %rrqm %wrqm r_await w_await aqu-sz rareq-sz wareq-sz  svctm  %util
sda    150.00 200.00 6000.00 8000.00  10.00  50.00   6.25  20.00   2.50    5.00   1.75    40.00    40.00   2.86  100.00

指标	含义	健康阈值	说明
`r/s`, `w/s`	每秒读/写请求次数	视设备性能而定	IOPS（每秒IO操作数）的直接体现
`rkB/s`, `wkB/s`	每秒读/写数据量（KB）	视设备带宽而定	吞吐量指标
`r_await`, `w_await`	读/写请求平均耗时（毫秒）	HDD<20ms, SSD<5ms	最重要的延迟指标，代表应用感知到的IO延迟
`aqu-sz`	平均请求队列长度	< 2	队列持续过长，说明设备处理不过来，请求在排队
`%util`	设备繁忙百分比	< 80%	需谨慎解读：对现代SSD/NVMe，100%不代表性能瓶颈

重要经验：很多人看到 %util 达到100%就认为遇到了瓶颈，这个指标对于机械硬盘（HDD）意义较大，因为HDD是真正的串行设备。但对于支持多队列并行处理的SSD和NVMe，%util=100% 仅表示设备一直在处理请求，未必达到性能极限。真正需要警惕的是 await（尤其是 w_await）指标的持续升高，这通常意味着IO请求的等待时间变长，设备可能已不堪重负。

2.2.3 实战：识别IO瓶颈

# 场景：系统变慢，怀疑是IO问题

# 第一步：快速查看整体IO情况
iostat -xz 1 5

# 如果观察到以下特征，基本可确认存在IO瓶颈：
# 1. %util 持续接近或达到100%
# 2. await 值显著升高（例如HDD > 50ms，SSD > 20ms）
# 3. aqu-sz 持续大于2

# 第二步：区分是读问题还是写问题
# 对比 r_await 和 w_await，哪个更高？
# 对比 r/s 和 w/s，哪个更大？

2.3 iotop 进程级IO分析

2.3.1 基础用法

# 需要root权限运行
sudo iotop

# 只显示当前正在进行IO活动的进程（-o）
sudo iotop -o

# 批处理模式，适用于脚本采集数据（-b）
sudo iotop -b -o -n 5 > /tmp/iotop.log

# 按进程启动以来的累计IO量进行排序（-a），找出“历史IO大户”
sudo iotop -a

2.3.2 界面解读

iotop 运行后典型输出如下：

Total DISK READ:       50.00 M/s | Total DISK WRITE:      100.00 M/s
Current DISK READ:     45.00 M/s | Current DISK WRITE:     95.00 M/s
    TID  PRIO  USER     DISK READ  DISK WRITE  SWAPIN      IO>    COMMAND
  12345 be/4  mysql     40.00 M/s   80.00 M/s  0.00 %  85.00 %  mysqld
  12346 be/4  root       5.00 M/s   15.00 M/s  0.00 %  10.00 %  rsync

关键列说明：

PRIO：IO优先级，be (best effort) 为默认，rt (realtime) 为实时优先级。
IO>：该进程的线程在IO等待上所花费的时间百分比。此值高表明该进程正被IO操作严重阻塞。
SWAPIN：进程从Swap分区读取数据所占的时间百分比。若此值高，通常指示物理内存不足。

2.3.3 实战：找出IO元凶

# 场景：系统监控显示IO很高，需要定位具体进程

# 方法一：使用iotop实时观察（-P 选项按进程聚合显示，更清晰）
sudo iotop -o -P

# 方法二：使用pidstat（来自sysstat包），每1秒采样，共5次
pidstat -d 1 5  # -d 表示显示IO统计

# 方法三：直接解析 /proc 文件系统（无需安装额外工具）
# 以下脚本片段可找出累计IO最高的前20个进程
for pid in $(ls /proc | grep -E '^[0-9]+$'); do
    if [ -f /proc/$pid/io ]; then
        name=$(cat /proc/$pid/comm 2>/dev/null)
        read_bytes=$(grep read_bytes /proc/$pid/io 2>/dev/null | awk '{print $2}')
        write_bytes=$(grep write_bytes /proc/$pid/io 2>/dev/null | awk '{print $2}')
        if [ -n "$read_bytes" ] && [ "$read_bytes" -gt 0 ]; then
            echo "$pid $name read:$read_bytes write:$write_bytes"
        fi
    fi
done | sort -t: -k2 -n -r | head -20

三、示例代码和配置

3.1 完整配置示例

3.1.1 blktrace 深度追踪

当 iostat 和 iotop 仍无法定位深层次问题时，blktrace 是终极武器。它可以追踪每一个IO请求在块设备层的完整生命周期。

# 开始追踪指定设备（如 /dev/sda），输出文件前缀为 ‘trace’
sudo blktrace -d /dev/sda -o trace &

# 运行你的负载复现操作...

# 停止追踪（假设blktrace在后台作业1）
sudo kill %1

# 使用 blkparse 解析生成的二进制 trace 文件，输出为文本
blkparse -i trace -o trace.txt

# 使用 btt 工具生成更友好的可视化分析报告
btt -i trace.blktrace.0 > btt_report.txt

blkparse 输出片段解读：

8,0    1        1     0.000000000  1234  Q   W 123456 + 8 [mysqld]
8,0    1        2     0.000001234  1234  G   W 123456 + 8 [mysqld]
8,0    1        3     0.000002345  1234  I   W 123456 + 8 [mysqld]
8,0    1        4     0.000010000  1234  D   W 123456 + 8 [mysqld]
8,0    1        5     0.000050000  1234  C   W 123456 + 8 [0]

事件类型说明：

Q (Queued)：请求进入块设备队列。
G (Get request)：分配request结构。
I (Inserted)：请求插入IO调度器队列。
D (Dispatched)：请求被派遣给设备驱动。
C (Completed)：请求完成。

3.1.2 IO调度器配置

IO调度器对性能，尤其是延迟和公平性有显著影响。

# 查看某个块设备（如sda）当前可用的及正在使用的调度器
cat /sys/block/sda/queue/scheduler
# 输出示例：[mq-deadline] kyber bfq none  # 方括号内为当前生效的调度器

# 临时修改调度器（例如改为kyber）
echo "kyber" | sudo tee /sys/block/sda/queue/scheduler

# 永久修改（通过udev规则，根据设备类型自动设置）
# 创建规则文件 /etc/udev/rules.d/60-io-scheduler.rules
cat << 'EOF' | sudo tee /etc/udev/rules.d/60-io-scheduler.rules
# SSD使用none或mq-deadline
ACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="0", ATTR{queue/scheduler}="mq-deadline"
# HDD使用bfq，保证交互公平性
ACTION=="add|change", KERNEL=="sd[a-z]", ATTR{queue/rotational}=="1", ATTR{queue/scheduler}="bfq"
# NVMe设备通常使用none调度器即可（内核5.0+）
ACTION=="add|change", KERNEL=="nvme[0-9]*", ATTR{queue/scheduler}="none"
EOF

# 重新加载udev规则使配置生效
sudo udevadm control --reload-rules
sudo udevadm trigger

调度器选择指南：	调度器	适用场景
none	NVMe SSD	无调度（Noop），延迟最低，让设备硬件队列自行处理。
mq-deadline	SATA SSD、数据库负载	保证请求的延迟上限，避免饥饿，适合混合读写。
kyber	低延迟场景，如桌面、交互应用	自适应调度，根据读取和写入延迟目标自动调整。
bfq	机械硬盘（HDD）、桌面系统	完全公平队列调度，为不同进程提供公平的带宽，防止IO饥饿。

3.2 实际应用案例

案例一：MySQL慢查询排查

场景描述：生产环境MySQL实例突发大量慢查询，DBA排查后反馈SQL本身无问题。

排查过程：

# 1. 使用iostat查看整体IO状况，重点关注写延迟
iostat -xz 1 10
# 观察到 w_await 从平时的 ~2ms 飙升到 50ms 以上

# 2. 使用iotop定位到具体进程
sudo iotop -o -P
# 确认是 `mysqld` 进程的磁盘写入量异常高

# 3. 查看mysqld进程打开了哪些文件，判断写入目标
sudo lsof -p $(pgrep mysqld) | grep -E 'REG.*\.ibd|\.log'
# 发现是 redo log 或 binlog 写入量巨大

# 4. 登录MySQL，检查是否有长时间运行的大事务
mysql -e "SHOW ENGINE INNODB STATUS\G" | grep -A 20 "TRANSACTIONS"
# 发现存在一个更新上百万行数据且未提交的事务

解决方案：

紧急终止或优化该大事务，将其拆分为小批次提交。
作为临时缓解措施，可考虑将 innodb_flush_log_at_trx_commit 参数临时调整为2（每秒刷盘），但会降低事务持久性保障。
长远规划，评估升级至更高性能的NVMe SSD。

案例二：容器IO隔离问题

场景描述：Kubernetes集群中某节点频繁有Pod被驱逐，监控显示节点IO使用率长时间偏高。

排查过程：

# 1. 登录问题节点，使用iostat确认IO瓶颈
iostat -xz 1 5

# 2. 利用cgroup v2的接口查看各容器的IO统计（需内核支持）
for cg in /sys/fs/cgroup/kubepods.slice/*/; do
    if [ -f "$cg/io.stat" ]; then
        echo "=== $(basename $cg) ==="
        cat "$cg/io.stat"
    fi
done
# 通过对比 `rios` 和 `wios`（读写IO次数）找出异常容器

# 3. 或者，如果节点运行了cAdvisor，可通过其metrics接口查询
curl -s localhost:10255/metrics | grep container_fs_writes_bytes_total

# 4. 找到可疑Pod后，查看其资源限制定义
kubectl describe pod <pod-name> | grep -A5 "Limits"

解决方案：
Kubernetes原生不支持对磁盘IO进行直接限制（如IOPS或带宽），但可通过以下方式间接控制：

使用支持IO限速的运行时：如配置 containerd 使用 io.max 等cgroup v2参数。
节点隔离：将IO敏感型Pod与IO密集型Pod通过节点亲和性/反亲和性调度到不同节点。
应用层优化：优化问题Pod自身应用逻辑，减少不必要的IO。
为相关Pod添加资源请求与限制（虽然不能直接限IO，但有助于调度器决策）：
```
apiVersion: v1
kind: Pod
spec:
containers:
- name: app
resources:
  limits:
    memory: "1Gi"
    cpu: "1"
  requests:
    memory: "512Mi"
    cpu: "500m"
```

四、最佳实践和注意事项

4.1 最佳实践

4.1.1 SSD优化配置

# 1. 确认并启用TRIM支持，定期清理已删除数据块，维持SSD性能
sudo fstrim -v /
# 启用并启动周期性的fstrim timer（大多数现代发行版已默认启用）
sudo systemctl enable fstrim.timer --now

# 2. 调整预读（readahead）值。SSD随机访问能力强，可适当减小预读
cat /sys/block/nvme0n1/queue/read_ahead_kb  # 查看当前值（单位KB）
echo 128 | sudo tee /sys/block/nvme0n1/queue/read_ahead_kb  # 设为128KB（通常足够）

# 3. 在挂载选项中添加 `noatime` 或 `relatime`，减少不必要的元数据更新写入
# 编辑 /etc/fstab，在对应挂载点的`defaults`后添加 `noatime`
# 例如：/dev/nvme0n1p1 /data xfs defaults,noatime 0 0

# 4. 降低vm.swappiness值，减少系统在内存压力下将匿名页换出到交换区的倾向
echo 10 | sudo tee /proc/sys/vm/swappiness
# 永久生效
echo "vm.swappiness = 10" | sudo tee -a /etc/sysctl.conf
sudo sysctl -p

4.1.2 数据库IO优化（以MySQL为例）

# 在 my.cnf 中添加或调整以下参数
[mysqld]
# InnoDB缓冲池大小，建议设置为可用物理内存的70%-80%
innodb_buffer_pool_size = 8G

# IO线程数，SSD环境下可以适当增加以提高并发度
innodb_read_io_threads = 8
innodb_write_io_threads = 8

# 事务日志刷盘策略。1=每次提交都刷盘（最安全），2=每秒刷盘（性能更好，故障可能丢失1秒数据）
innodb_flush_log_at_trx_commit = 1

# 使用O_DIRECT方式绕过操作系统缓存，让InnoDB自己管理缓冲池，避免双缓存
innodb_flush_method = O_DIRECT

# 双写缓冲（Doublewrite Buffer），SSD环境下若对数据完整性要求可承受一定风险，可考虑关闭以提升写性能（有争议）
innodb_doublewrite = ON

4.1.3 RAID配置对IO的影响

错误的RAID级别选择会严重制约IO性能。

# 查看软件RAID信息
cat /proc/mdstat
# 或使用mdadm查看详情
sudo mdadm --detail /dev/md0

# 查看RAID条带大小（Chunk Size），这对顺序读写性能影响很大
sudo mdadm --detail /dev/md0 | grep "Chunk Size"

RAID级别性能对比：	RAID级别	读性能	写性能
RAID 0	最好（N倍）	最好（N倍）	临时数据、缓存、追求极致性能且无冗余需求
RAID 1	好（可并发读）	一般（需写多份）	系统盘、小容量数据库、要求高可用
RAID 5	好	较差（存在写惩罚）	读多写少的归档存储，性价比高
RAID 10	很好	很好	数据库、虚拟机等对性能和可靠性要求高的场景

经验之谈：曾有一个案例，在RAID 5上运行MySQL OLTP业务，写性能始终不佳。后迁移至RAID 10，写性能提升超过3倍。RAID 5的写惩罚（每次写入需读-改-写校验信息）对于随机小写密集型的数据库负载是致命的。

4.2 注意事项

4.2.1 监控告警阈值设定

⚠️ 核心提醒：在SSD/NVMe时代，`%util` 的参考价值已降低，应更关注 `await` 和 `aqu-sz`。	指标	警告阈值（Warning）	严重阈值（Critical）
await	>10ms (SSD) / >50ms (HDD)	>50ms (SSD) / >200ms (HDD)	最关键的延迟指标
aqu-sz	> 4	> 10	平均队列深度，反映堵塞程度
%util	> 80%	> 95%	传统指标，SSD/NVMe场景下仅供参考

4.2.2 常见错误与误解

错误现象	可能原因分析	排查与解决方案
`await` 突然飙高	IO风暴（某个进程狂写）、磁盘硬件故障、RAID卡电池学习、后端存储（如SAN）问题	使用 `iotop`/`pidstat` 定位进程；检查 `dmesg` 内核日志；检查存储阵列状态。
`%util=100%` 但 `await` 正常	对于SSD/NVMe是正常现象，设备正在满负荷高效工作。	无需处理，这是高性能设备的特点。关注 `await` 即可。
读性能差，写性能正常	内存不足导致Page Cache命中率低；预读（readahead）配置过小。	检查可用内存；适当增加 `/sys/block/xxx/queue/read_ahead_kb` 值。
SSD使用一段时间后性能下降	写放大（Write Amplification）严重；TRIM未启用或无效；OP（预留空间）不足。	确保TRIM已启用；检查SSD健康度（`smartctl`）；考虑更换更高OP比例的硬盘。

五、故障排查和监控

5.1 故障排查

5.1.1 日志查看

# 查看内核环缓冲区日志，过滤IO、磁盘、错误相关消息
sudo dmesg | grep -iE 'io|disk|sda|nvme|error|timeout'

# 使用journalctl查看系统日志中的磁盘相关错误
sudo journalctl -k | grep -iE 'io error|disk|ata|scsi'

# 检查磁盘的SMART健康状态信息（适用于SATA/SAS）
sudo smartctl -a /dev/sda
# 重点关注：Reallocated_Sector_Ct（重映射扇区数）、Current_Pending_Sector（等待重映射的扇区）

5.1.2 常见问题排查

问题一：%iowait 很高，但 iostat 显示各磁盘 %util 和 await 都不高
可能原因不在块设备层，而在文件系统层或锁竞争。

# 检查是否有进程在等待文件锁（fcntl锁或flock）
sudo lsof | grep -E 'FLOCK|POSIX'

# 使用perf工具观察文件系统或VFS层面的活动
sudo perf top -e filelock:*

问题二：NVMe SSD性能间歇性骤降
可能是过热保护（Thermal Throttling）触发。

# 检查NVMe固态硬盘的温度
sudo nvme smart-log /dev/nvme0n1 | grep temperature

# 查看NVMe的完整健康信息
sudo nvme smart-log /dev/nvme0n1

# 查看内核日志是否有过热节流记录
sudo dmesg | grep -i thermal

问题三：虚拟机内IO性能远低于预期
可能是虚拟化驱动或配置问题。

# 在虚拟机内检查是否使用了virtio驱动（性能最佳）
lsmod | grep virtio
lsblk -d -o NAME,TYPE,TRAN  # TRAN应显示为virtio

# 在宿主机上，查看对应的qemu进程的IO情况
sudo iotop -p $(pgrep -f qemu-system)

5.2 性能监控体系

5.2.1 Prometheus监控配置

Node Exporter已暴露了丰富的磁盘IO指标。

# 磁盘读取速率（字节/秒）
rate(node_disk_read_bytes_total{device="sda"}[5m])

# 磁盘写入速率（字节/秒）
rate(node_disk_written_bytes_total{device="sda"}[5m])

# 磁盘IO耗时比率（设备繁忙百分比，类似%util）
rate(node_disk_io_time_seconds_total{device="sda"}[5m])

# 平均读延迟（秒/次）—— 需要根据原始指标计算
rate(node_disk_read_time_seconds_total{device="sda"}[5m]) / rate(node_disk_reads_completed_total{device="sda"}[5m])

5.2.2 Grafana告警规则示例

在Prometheus Alertmanager的配置文件中定义：

groups:
- name: disk_io_alerts
  rules:
  - alert: HighDiskIOLatency
    expr: |
      (rate(node_disk_read_time_seconds_total[5m]) / rate(node_disk_reads_completed_total[5m])) > 0.1
      or
      (rate(node_disk_write_time_seconds_total[5m]) / rate(node_disk_writes_completed_total[5m])) > 0.1
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "磁盘IO延迟过高"
      description: "设备 {{ $labels.device }} 平均IO延迟超过100ms"

  - alert: DiskIOSaturation
    expr: rate(node_disk_io_time_seconds_total[5m]) > 0.9
    for: 10m
    labels:
      severity: critical
    annotations:
      summary: "磁盘IO持续饱和"
      description: "设备 {{ $labels.device }} 在过去10分钟内IO利用率持续超过90%"

5.3 自动化脚本

5.3.1 IO监控与简易告警脚本

#!/bin/bash
# io_monitor.sh - 简易磁盘IO监控与阈值告警脚本
# 用法: ./io_monitor.sh [设备名] [await阈值(ms)]

DEVICE=${1:-sda}
THRESHOLD=${2:-50}
LOG_FILE="/var/log/io_monitor.log"

while true; do
    # 获取iostat扩展输出中指定设备的数据（取第二次采样的结果）
    IO_DATA=$(iostat -xz "$DEVICE" 1 2 | tail -1)
    # 提取await（第10列）和%util（最后一列）
    AWAIT=$(echo "$IO_DATA" | awk '{print $10}')
    UTIL=$(echo "$IO_DATA" | awk '{print $NF}')

    # 记录到日志
    echo "$(date '+%Y-%m-%d %H:%M:%S') device=$DEVICE await=${AWAIT}ms util=${UTIL}%" >> "$LOG_FILE"

    # 检查await是否超过阈值（使用bc进行浮点数比较）
    if (( $(echo "$AWAIT > $THRESHOLD" | bc -l) )); then
        echo "ALERT: $DEVICE await=${AWAIT}ms exceeds threshold ${THRESHOLD}ms" | \
            tee -a "$LOG_FILE"
        # 此处可集成告警通知，如发送HTTP请求到Webhook、发送邮件等
        # curl -X POST "https://your-webhook-url" -d "message=IO Alert"
    fi

    sleep 5
done

六、总结

6.1 技术要点回顾

iostat -xz 是起点：理解 await、aqu-sz、%util 等核心指标的真实含义，避免误判。
await 优于 %util：在固态存储时代，延迟（await）是判断IO瓶颈更可靠的指标。
iotop 用于快速定位：能直观显示进程级别的实时IO活动，找出“元凶”。
blktrace 用于深度剖析：当上层工具无法定位时，它是追踪块设备层IO行为的终极工具。
调度器需匹配场景：SSD/NVMe常用 none 或 mq-deadline，HDD常用 bfq 以保证公平性。
建立完整监控：结合 Prometheus、Grafana 等工具，建立覆盖设备、进程、业务的立体IO监控与告警体系。

6.2 进阶学习方向

BPF/eBPF IO追踪：
- 工具：BCC工具包中的 biolatency、biosnoop、biotop。
- 资源：Brendan Gregg 的《BPF Performance Tools》及相关博客。
Linux块层内部机制：
- 学习多队列块设备（blk-mq）架构。
- 阅读内核源码中 block/ 目录下的相关文档与代码。
分布式存储IO：
- 研究 Ceph、MinIO 等分布式存储系统的IO路径与调优。
- 在 Kubernetes 环境中实践使用 CSI 驱动并配置存储QoS。

6.3 参考资料

Linux Kernel Documentation: Block Layer
Brendan Gregg's Blog: Linux Disk I/O Performance Analysis
Red Hat Performance Tuning Guide
fio (Flexible I/O Tester) 官方文档

附录

A. 命令速查表

# 基础监控
iostat -xz 1           # 实时磁盘扩展统计
iotop -o               # 显示活跃进程IO
pidstat -d 1           # 进程IO统计

# 设备信息
lsblk -d -o NAME,SIZE,ROTA,SCHED  # 查看设备及调度器
smartctl -a /dev/sda   # 查看SATA/SAS磁盘健康度
nvme smart-log /dev/nvme0n1       # 查看NVMe磁盘健康度

# 调优操作
echo mq-deadline > /sys/block/sda/queue/scheduler  # 修改IO调度器
echo 128 > /sys/block/sda/queue/read_ahead_kb      # 修改预读大小
fstrim -v /            # 手动执行TRIM操作

B. IO性能基准参考（典型值）

设备类型	顺序读	顺序写	随机读IOPS (4K)	随机写IOPS (4K)	典型访问延迟
7200 RPM HDD	~150 MB/s	~150 MB/s	~100	~100	10-20 ms
SATA SSD	~550 MB/s	~520 MB/s	~90,000	~80,000	0.1-0.5 ms
NVMe SSD (Gen3)	~3500 MB/s	~3000 MB/s	~500,000	~400,000	0.02-0.1 ms
Intel Optane	~2500 MB/s	~2200 MB/s	~550,000	~500,000	~0.01 ms

C. 术语表

术语	英文全称	解释
IOPS	I/O Operations Per Second	每秒完成的读写操作次数，衡量随机IO能力的关键指标。
吞吐量	Throughput	单位时间内成功传输的数据量（如 MB/s），衡量顺序IO能力。
延迟	Latency	从发出IO请求到收到确认所花费的时间，直接影响应用响应速度。
队列深度	Queue Depth	同时能够被设备处理的未完成IO请求的最大数量。深度越大，潜在并发度越高。
写放大	Write Amplification	SSD中实际写入NAND闪存的数据量与主机要求写入的数据量之比。值越大，寿命和性能损耗越快。
TRIM	TRIM	操作系统向SSD发出的指令，用于标记已删除数据所在的块，以便SSD在垃圾回收时能提前擦除，维持性能。

掌握磁盘IO的监控与调优，是每一位运维工程师和系统管理员保障业务稳定性的核心技能之一。从宏观的 iostat 到微观的 blktrace，构建起层次化的分析能力，才能在各种复杂的生产环境中游刃有余。如果在实践中遇到更棘手的问题，欢迎在云栈社区的相关板块与大家交流探讨。

上一篇：AI技能搜索利器find-skills：React优化与PR审查实战指南
下一篇：从IDE到终端，聊聊AI编程：到2026年，终端编程会是主流吗？

Linux, 系统监控, 性能优化, MySQL, Kubernetes