云栈社区»论坛 › 技术文档「 Note & Doc 」 › SQL CTE与递归CTE实战指南：简化查询与遍历树形数据 ...

发回帖发新帖

5645 积分	0 好友	745 主题

发消息

SQL CTE与递归CTE实战指南：简化查询与遍历树形数据

发表于 2025-12-20 09:01:26 | 查看: 249| 回复: 0

在处理复杂的业务报表时，你是否曾面对一个包含了用户分层、订单统计与复购率计算的巨型SELECT语句而感到无从下手？这种将所有逻辑堆砌在一起的做法，不仅难以理解，更给后续的维护带来了巨大挑战。公用表表达式（Common Table Expression, CTE）正是解决此类问题的利器。你可以将它理解为编写SQL时的“提纲”，允许你将复杂的查询逻辑拆解为多个命名清晰、功能单一的小模块，最后再像搭积木一样将它们组合起来，极大地提升了代码的可读性和可维护性。

那么，递归CTE又扮演着什么角色呢？它堪称CTE家族中的“特种部队”。当数据结构不再是简单的扁平表格，而是像组织架构、产品BOM表或社交网络这样层层嵌套、自我引用的树形或图状结构时，普通的CTE便力有不逮。递归CTE应运而生，它通过“自我调用”的迭代方式，能够一层层地深入数据内部，直至遍历完整棵“树”或整张“图”。

简单总结二者的核心区别：

普通CTE：体现了模块化编程思想，用于拆分和简化复杂查询逻辑。
递归CTE：是处理层级或树形数据的专用工具，通过迭代实现深度遍历。

注：CTE是ANSI SQL:1999标准引入的特性，现代主流数据库如 PostgreSQL (8.4+)、MySQL (8.0+)、SQL Server (2005+)、Oracle (9i+) 等均已支持。

一、基本语法与执行模型对比

1. 语法对比

让我们从最直观的代码开始，感受两者的差异。

普通CTE：定义一次性临时视图

-- 定义一个名为“active_employees”的临时结果集
WITH active_employees AS (
    -- 此查询仅执行一次，用于筛选在职员工
    SELECT employee_id, name, department, salary
    FROM employees
    WHERE status = 'active'
)
-- 主查询直接使用上述临时结果集
SELECT department, AVG(salary) as avg_salary
FROM active_employees
GROUP BY department;

WITH ... AS (...)：标准CTE语法。active_employees是为临时结果集命名的标识符，作用类似于临时视图。
单次执行：括号内的SELECT语句仅运行一次，其结果被存储或内联展开，供后续主查询使用。
作用：将“筛选活跃员工”这一业务逻辑独立封装，使得主查询（计算部门平均薪资）变得简洁明了。

递归CTE：实现自我迭代

-- 递归CTE：构建完整的组织架构树
WITH RECURSIVE org_tree AS (
    -- =============== 锚点成员 (Anchor Member) ===============
    -- 第一步：找到所有没有上级的“根”节点（如CEO）
    SELECT
        employee_id,
        name,
        manager_id,
        1 AS level -- 定义层级，根节点为第1层
    FROM employees
    WHERE manager_id IS NULL -- 递归的起点

    UNION ALL -- 递归CTE必须使用UNION ALL连接锚点和递归部分

    -- =============== 递归成员 (Recursive Member) ===============
    -- 第二步及以后：不断查找当前节点的直接下属
    SELECT
        e.employee_id,
        e.name,
        e.manager_id,
        ot.level + 1 -- 每深入一层，层级加1
    FROM employees e
    -- 关键！在此引用CTE自身 (org_tree)
    INNER JOIN org_tree ot ON e.manager_id = ot.employee_id
    -- JOIN逻辑：“找到经理ID等于上一轮结果中员工ID的人”
)
-- 最终查询完整的组织树
SELECT * FROM org_tree
ORDER BY level, name;

WITH RECURSIVE：声明递归CTE的关键字（在SQL Server中需省略RECURSIVE，直接使用WITH）。
锚点成员 (Anchor Member)：递归的起点，是一个不引用CTE自身的普通查询，负责生成初始结果集（R0）。
UNION ALL：连接锚点与递归部分的必需操作符。
递归成员 (Recursive Member)：递归的核心，其FROM子句必须引用CTE自身。数据库利用上一轮迭代的结果（Rn-1）来查询下一层数据（Rn）。
终止条件：当递归成员对上一轮结果的查询返回空集时，递归自动终止。

为何必须使用UNION ALL？ UNION会进行去重，可能错误移除不同层级的重复记录（如重名员工），且去重操作会增加每轮迭代的计算开销，严重影响性能。递归的终止依赖于“递归成员返回空集”，UNION的去重可能破坏这一逻辑。

2. 执行模型差异

理解了语法，再来看看数据库引擎内部如何处理这两类CTE。

特性	普通CTE	递归CTE
初始化	执行一次子查询，得到静态结果集。	执行锚点查询，得到初始结果集R0。
处理过程	无迭代。结果集通常被优化器内联展开到主查询中（类似于子查询），仅在多次引用时才可能被物化为临时表。	循环迭代。这是一个动态过程： 1. 以R0为输入，执行递归成员，得到R1。 2. 以R1为输入，执行递归成员，得到R2。 ... n. 直到某次执行返回空集，停止。
最终结果	即那个静态结果集。	是所有迭代结果的并集：R0 ∪ R1 ∪ R2 ∪ ... ∪ Rn。
类比	像是复印一份资料供多人传阅。	像流水线：工序A产出半成品A，工序B拿A产出B，工序C拿B产出C...直至无法再加工。

递归CTE执行流程示例：
假设一个简单的三层组织：CEO (ID:1) -> 经理A (ID:2) -> 员工B (ID:3)。

锚点：WHERE manager_id IS NULL，得 R0 = { (1, ‘CEO‘, NULL, 1) }。
迭代1：用R0的employee_id=1去JOIN，得 R1 = { (2, ‘经理A‘, 1, 2) }。
迭代2：用R1的employee_id=2去JOIN，得 R2 = { (3, ‘员工B‘, 2, 3) }。
迭代3：用R2的employee_id=3去JOIN，无匹配，返回空集。
终止：因返回空集，递归结束。
输出：最终结果 = R0 ∪ R1 ∪ R2。

二、高级特性与使用技巧

1. 组合多个CTE

CTE的强大之处在于支持链式定义，形成一个清晰的数据处理管道。可以在一个WITH子句中定义多个CTE，后续的CTE可以引用前面已定义的CTE。

-- 分析用户的推荐链条与活跃度
WITH
-- 步骤1: 获取活跃用户基本信息
active_users AS (
    SELECT user_id, signup_date, last_login
    FROM users
    WHERE status = 'active'
),
-- 步骤2: 计算用户登录活跃度
user_activity AS (
    SELECT
        user_id,
        COUNT(*) as login_count,
        MAX(last_login) as latest_login
    FROM login_logs
    GROUP BY user_id
),
-- 步骤3: 合并信息
user_summary AS (
    SELECT
        au.user_id,
        au.signup_date,
        ua.login_count,
        ua.latest_login
    FROM active_users au
    JOIN user_activity ua ON au.user_id = ua.user_id
),
-- 步骤4: 递归CTE，仅分析活跃用户的推荐链
RECURSIVE referral_chain AS (
    -- 锚点：从活跃的“种子”用户开始
    SELECT r.user_id, r.referrer_id, 1 as depth
    FROM referrals r
    JOIN user_summary us ON r.user_id = us.user_id -- 依赖普通CTE过滤
    WHERE r.referrer_id IS NULL
    UNION ALL
    -- 递归：仅追踪活跃用户的推荐关系
    SELECT
        r.user_id,
        r.referrer_id,
        rc.depth + 1
    FROM referrals r
    JOIN referral_chain rc ON r.referrer_id = rc.user_id
    JOIN user_summary us ON r.user_id = us.user_id -- 每层都过滤
)
-- 最终查询
SELECT *
FROM user_summary
WHERE user_id IN (SELECT user_id FROM referral_chain);

优势：逻辑清晰、易于分段调试、中间结果可复用。

2. 递归CTE的限制与应对

递归虽然强大，但也需警惕两大风险：无限循环和深度失控。

（1）避免无限循环
若数据存在循环引用（A管理B，B又管理A），递归将陷入死循环。必须主动防御。

通用方法：记录访问路径

WITH RECURSIVE category_path AS (
    SELECT
        id, name, parent_id,
        CONCAT('|', CAST(id AS VARCHAR(1000)), '|') AS path,
        FALSE AS is_cycle
    FROM categories
    WHERE parent_id IS NULL
    UNION ALL
    SELECT
        c.id, c.name, c.parent_id,
        CONCAT(cp.path, c.id, '|') AS path,
        cp.path LIKE CONCAT('%|', c.id, '|%') -- 检测循环
    FROM categories c
    JOIN category_path cp ON c.parent_id = cp.id
    WHERE NOT cp.is_cycle -- 发现循环则终止该分支
)
SELECT * FROM category_path WHERE NOT is_cycle;

提示：若ID可能包含分隔符，可使用数组（PostgreSQL的ARRAY[id]）或JSON数组（MySQL的JSON_ARRAY(id)）存储路径，避免误匹配。

PostgreSQL 14+ 专用：CYCLE子句

WITH RECURSIVE category_tree AS (...)
CYCLE id SET is_cycle TO '1' DEFAULT '0' USING cycle_path;
SELECT * FROM category_tree WHERE is_cycle = '0';

（2）控制递归深度
即使无循环，过深的递归也会导致性能问题。应设置合理的深度上限。

各数据库深度控制方法：

PostgreSQL: SET max_recursive_iterations = 1000;
MySQL: SET SESSION cte_max_recursion_depth = 1000; (默认1000)
SQL Server: 在查询末尾添加 OPTION (MAXRECURSION 1000);
Oracle/通用推荐：在递归成员的WHERE子句中显式限制 depth < N

最佳实践：无论数据库全局设置如何，都应在递归查询内部使用WHERE depth < N进行显式限制，保证代码行为清晰且一致。

三、实际应用场景

1. 普通CTE典型场景

场景1：复杂报表分步构建
为电商构建月度经营分析报告，整合订单、用户、地域等多维数据。

WITH
-- 步骤1: 近30天有效订单及净收入
recent_orders AS (...),
-- 步骤2: 关联用户画像
order_with_users AS (...),
-- 步骤3: 多维度聚合统计
order_stats AS (...),
-- 步骤4: 排名与占比分析
ranked_stats AS (...)
-- 最终输出
SELECT ... FROM ranked_stats WHERE ...;

通过多个CTE，将复杂任务分解为“数据提取→关联→聚合→排名”的清晰流水线。

场景2：简化嵌套子查询

-- 未用CTE：嵌套复杂
SELECT department, AVG(salary)
FROM (
    SELECT department, salary
    FROM employees
    WHERE hire_date > '2020-01-01'
    AND salary > (SELECT AVG(salary) FROM employees)
) AS sub
GROUP BY department;

-- 使用CTE：逻辑清晰
WITH avg_salary AS (SELECT AVG(salary) AS overall_avg FROM employees),
     qualified_employees AS (
         SELECT department, salary
         FROM employees
         JOIN avg_salary AS as ON employees.salary > as.overall_avg
         WHERE hire_date > '2020-01-01'
     )
SELECT department, AVG(salary) FROM qualified_employees GROUP BY department;

2. 递归CTE高级场景

场景1：组织架构与权限继承
在大企业中，权限常随组织层级向下继承。

WITH RECURSIVE
-- 递归获取部门树
department_hierarchy AS (...),
-- 获取部门下所有员工
department_employees AS (...),
-- 递归展开角色的所有权限（包括继承）
role_permissions_expanded AS (...)
-- 最终关联：员工-部门-角色-权限
SELECT ...;

场景2：生成连续日期序列
无需依赖日历表，生成报表所需的日期维度。

WITH RECURSIVE date_series AS (
    SELECT CURRENT_DATE - INTERVAL '29 days' AS date
    UNION ALL
    SELECT date + INTERVAL '1 day' FROM date_series
    WHERE date < CURRENT_DATE
)
SELECT date::DATE FROM date_series ORDER BY date;

场景3：图数据遍历（寻找最短路径）
递归CTE可模拟基础的图算法，如在交通网络中寻路。

WITH RECURSIVE shortest_path AS (
    -- 锚点：从起点出发
    SELECT ..., ARRAY[start_city, end_city] as path, 1 as steps
    FROM city_routes WHERE start_city = 'A'
    UNION ALL
    -- 递归扩展路径，避免循环，进行剪枝
    SELECT ..., sp.path || cr.end_city, sp.steps + 1
    FROM shortest_path sp
    JOIN city_routes cr ON sp.current_city = cr.start_city
    WHERE NOT cr.end_city = ANY(sp.path) AND sp.steps < 10
)
SELECT path, total_distance FROM shortest_path WHERE end_city = 'Z' ORDER BY total_distance LIMIT 1;

四、性能分析与优化策略

1. 性能特征对比

普通CTE：通常很快。优化器常将其内联到主查询，性能损耗小。仅在被多次引用时，可能物化为临时表，产生额外I/O，但对复杂且复用的CTE，物化反而可能提升整体性能。
递归CTE：天生较慢。作为迭代过程，性能与递归深度及每层数据量直接相关。内存消耗大，且极度依赖JOIN条件上的索引。

2. 性能优化技巧

技巧1：尽早并严格过滤
在递归的每一步都尽可能减少数据量。

WITH RECURSIVE optimized_org AS (
    SELECT employee_id, name, manager_id, 1 as depth
    FROM employees
    WHERE employee_id = 100 AND status = 'active' AND hire_date > '2020-01-01' -- 锚点即过滤
    UNION ALL
    SELECT e.employee_id, e.name, e.manager_id, oo.depth + 1
    FROM employees e
    INNER JOIN optimized_org oo ON e.manager_id = oo.employee_id
    WHERE oo.depth < 5 AND e.status = 'active' -- 每层都过滤并限制深度
);

技巧2：创建专用复合索引
为递归查询的JOIN条件和常用过滤字段创建索引。

-- 针对 manager_id + status 的查询
CREATE INDEX idx_employees_manager_active ON employees(manager_id, status) INCLUDE (employee_id, name);
-- 或使用部分索引
CREATE INDEX idx_employees_active_managers ON employees (manager_id) WHERE status = 'active';

**技巧3：递归中避免 SELECT ***
递归成员仅选择必需字段（如ID、外键、层级），最后再关联获取详细信息。

WITH RECURSIVE org_tree AS (
    SELECT employee_id, manager_id, 1 as depth FROM employees WHERE manager_id IS NULL -- 仅选必要字段
    UNION ALL
    SELECT e.employee_id, e.manager_id, ot.depth + 1
    FROM employees e JOIN org_tree ot ON e.manager_id = ot.employee_id
)
SELECT ot.*, e.name, e.department, e.salary -- 最终关联详情
FROM org_tree ot
JOIN employees e ON ot.employee_id = e.employee_id;

技巧4：避免普通CTE“过度模块化”
CTE应代表有意义的业务单元，而非机械的技术步骤。

-- 反例：无意义的拆分
WITH step1 AS (SELECT * FROM employees),
     step2 AS (SELECT * FROM step1 WHERE status='active'),
     step3 AS (SELECT * FROM step2 WHERE hire_date > '2020-01-01')
SELECT * FROM step3;

-- 正例：有业务语义的模块
WITH active_employees AS (
    SELECT employee_id, name, department, salary
    FROM employees
    WHERE status='active' AND hire_date > '2020-01-01' -- 合并逻辑
)
SELECT * FROM active_employees;

技巧5：物化中间结果，分阶段处理
对于超大规模递归，可先用递归CTE快速获取ID列表，再用普通JOIN获取详情。在大数据处理场景中，这种分阶段策略能有效控制内存使用。

WITH RECURSIVE
-- 第一阶段：只取ID，速度快
relevant_ids AS (
    SELECT id, parent_id, 1 as depth FROM huge_tree_table WHERE root_id = 123
    UNION ALL
    SELECT ht.id, ht.parent_id, ri.depth + 1
    FROM huge_tree_table ht
    INNER JOIN relevant_ids ri ON ht.parent_id = ri.id
    WHERE ri.depth < 4
),
-- 第二阶段：基于ID进行复杂关联和计算
detailed_info AS (
    SELECT ht.*, ri.depth, some_expensive_function(ht.data) as processed_data
    FROM huge_tree_table ht
    INNER JOIN relevant_ids ri ON ht.id = ri.id
)
SELECT * FROM detailed_info;

注：MATERIALIZED关键字（PostgreSQL特有）可强制物化CTE。其他数据库可通过插入临时表实现类似效果。

五、各数据库实现差异与兼容性

数据库	普通CTE支持	递归CTE支持	关键字	特色功能与注意
PostgreSQL	8.4+	8.4+	`RECURSIVE`	支持 `SEARCH`, `CYCLE`(14+), `MATERIALIZED`。
MySQL	8.0+	8.0+	`RECURSIVE`	通过会话变量 `cte_max_recursion_depth` 控制深度（默认1000）。
SQL Server	2005+	2005+	不需要 `RECURSIVE`	使用 `OPTION (MAXRECURSION N)` 在查询后控制深度。
Oracle	9i+	12c+	不需要 `RECURSIVE`	支持 `SEARCH`, `CYCLE`；传统方式可用 `CONNECT BY`。
SQLite	3.8.3+	3.8.3+	`RECURSIVE`	受 `SQLITE_MAX_RECURSIVE_DEPTH` 限制（默认1000）。

兼容性提示：

SQL Server中递归CTE无需RECURSIVE关键字，编写跨库代码时需注意。
优先使用查询内部的 WHERE depth < N 进行深度控制，而非依赖数据库全局参数，以保证代码行为一致。

六、常见陷阱与解决方法

陷阱1：无限递归
原因：数据存在循环引用或缺少有效终止条件。
解决：始终加入深度限制（WHERE depth < N）并实现路径记录与循环检测逻辑。

陷阱2：性能缓慢
原因：递归JOIN条件缺少索引支持。
解决：为递归依赖的外键及过滤字段创建复合索引，并通过EXPLAIN分析执行计划。

陷阱3：方向错误
原因：混淆了父子关系JOIN的方向。
解决：牢记模式“子找父”。JOIN条件应为：子表.父ID字段 = 递归CTE.当前节点ID字段。

**陷阱4：递归中使用 SELECT *
原因：携带冗余大字段，增加内存和I/O开销。
解决**：递归CTE仅选取遍历必需字段（ID、父ID、深度），最终再通过JOIN补全详细信息。

陷阱5：普通CTE“过度模块化”
原因：将简单逻辑拆分为多个连续CTE，增加优化器负担。
解决：CTE应用于封装独立、复杂或需复用的业务逻辑单元，而非简单的步骤拆分。

上一篇：RT-Thread开发环境搭建指南：基于Ubuntu 22.04与STM32 BSP
下一篇：Python图像处理库Mahotas详解：生物医学图像分析与特征提取实战

CTE, 递归CTE, SQL, MySQL, PostgreSQL

SQL CTE与递归CTE实战指南：简化查询与遍历树形数据

一、 基本语法与执行模型对比