云栈社区»论坛 › 技术文档「 Note & Doc 」 › dma-buf systemheap mmap性能优化：从逐页映射到批量处理的35倍 ...

发回帖发新帖

3057 积分	0 好友	433 主题

发消息

dma-buf systemheap mmap性能优化：从逐页映射到批量处理的35倍提升

发表于 2025-12-21 04:49:01 | 查看: 71| 回复: 0

在分析 drivers/dma-buf/heaps/system_heap.c 的代码时，我们发现其 system_heap_mmap 函数存在明显的性能瓶颈。该函数在处理 dma-buf 的 scatter-gather (sg) 列表时，采用了逐页（page-by-page）进行内存映射的方式。

原始低效映射代码

如代码所示，它遍历 sg 列表中的每一个条目（entry），并在每个条目内部再逐个页面调用 vm_insert_page。这种方式效率较低，因为一个 sg entry 本身可能就代表一大片连续的内存区域（例如一个 8-order 的复合页）。逐页操作不仅增加了函数调用开销，也未能充分利用内存的连续性。

优化的核心思路是将“逐页映射”改为“批量映射”。即一次性映射整个连续的 sg entry 区域，而非其中的每个独立页面。这涉及到对 Linux系统内存管理机制的深入理解。主要的挑战在于处理各种边界不对齐的情况，例如 mmap 的起始地址可能位于一个大 order 内存块的中间某个页面，而非其起始位置。

经过对边界条件的完整处理，优化后的核心代码如下，它能够识别连续的内存块并进行批量映射：

优化后的批量映射代码