linuxx

5763 积分	0 好友	756 主题

发消息

SQLGlot 实战指南：Python SQL解析、跨方言转换与AST操作

发表于 2026-2-23 01:48:00 | 查看: 322| 回复: 0

在日常数据平台迁移、多引擎支持或跨数据库开发工作中，最令人头疼的莫过于处理各种 SQL 方言的差异。Spark SQL 的语法到了 Presto 就报错，DuckDB 的日期函数在 Snowflake 里不兼容。你是否也经常为此烦恼？

Python 生态中的 SQLGlot 模块正是为解决这一痛点而生。它是一款无依赖的 SQL 解析器、转译器和优化器，支持在 31 种不同的 SQL 方言之间无缝转换。无论是数据库迁移、跨平台开发还是 SQL 单元测试，SQLGlot 都能让你的 SQL 代码实现“一次编写，处处运行”。

🚀 极简安装与基础能力

SQLGlot 的安装非常简单，可以通过 pip 直接安装。它提供了核心的解析功能，以及一个可选的、性能更高的 Rust 加速版本。

# 安装sqlglot（基础版本）
!pip install sqlglot

import sqlglot
print(f"SQLGlot版本: {sqlglot.__version__}")
print(f"支持方言数: {len(sqlglot.dialects.DIALECTS)}")

执行结果：

SQLGlot版本：25.30.0
支持方言数：31
核心特性：无依赖纯Python实现

🔄 跨方言SQL转换实战

SQLGlot 的核心功能就是方言转译。不同数据库的日期、字符串处理函数差异巨大，使用其 transpile 方法可以轻松完成转换。

# DuckDB的时间函数转译为Hive语法
duckdb_sql = "SELECT EPOCH_MS(1618088028295)"
transpiled = sqlglot.transpile(duckdb_sql, read="duckdb", write="hive")[0]
print(f"DuckDB原始SQL: {duckdb_sql}")
print(f"Hive转译后: {transpiled}")

# Spark SQL转译为Presto
spark_sql = "SELECT DATE_FORMAT(date, 'yyyy-MM-dd') FROM table"
presto_sql = sqlglot.transpile(spark_sql, read="spark", write="presto")[0]
print(f"Spark转Presto: {presto_sql}")

执行结果：

DuckDB原始SQL: SELECT EPOCH_MS(1618088028295)
Hive转译后: SELECT FROM_UNIXTIME(1618088028295 / POW(10, 3))
Spark转Presto: SELECT DATE_FORMAT(date, '%Y-%m-%d') FROM table

可以看到，它将 DuckDB 特有的 EPOCH_MS 函数准确地转换成了 Hive 的 FROM_UNIXTIME，并自动处理了毫秒到秒的转换。

🎯 表达式构建与动态SQL生成

除了静态 SQL 转译，SQLGlot 还支持程序化构建 SQL。通过 select 和 condition 等辅助函数，你可以像搭积木一样动态生成复杂的查询语句，这在构建需要条件拼接的查询时非常有用。

from sqlglot import select, condition

# 动态构建WHERE条件
where_clause = condition("age > 18").and_("status = 'active'")
sql = select("*").from_("users").where(where_clause).sql()
print(f"动态构建SQL: {sql}")

# 链式调用构建复杂查询
complex_sql = select("name", "COUNT(*) as cnt")\
    .from_("orders")\
    .where("amount > 100")\
    .group_by("name")\
    .having("cnt > 5")\
    .sql(dialect="postgres")
print(f"复杂查询: {complex_sql}")

执行结果：

动态构建SQL：SELECT * FROM users WHERE age > 18 AND status = 'active'
复杂查询：SELECT name, COUNT(*) as cnt FROM orders WHERE amount > 100 GROUP BY name HAVING cnt > 5

🔍 AST解析与元数据提取

SQLGlot 能够将 SQL 语句解析为抽象语法树（AST），这是它强大功能的基础。通过遍历 AST，我们可以轻松提取出 SQL 中引用的表名、列名等元数据，这为数据血缘分析、影响分析等高级应用提供了可能。

from sqlglot import parse_one, exp

# 解析SQL并提取表名和列名
sql = "SELECT a.id, b.name FROM table_a a JOIN table_b b ON a.id = b.ref_id"
parsed = parse_one(sql)

print("所有表引用:")
for table in parsed.find_all(exp.Table):
    print(f"  - {table.name}")

print("\n所有列引用:")
for column in parsed.find_all(exp.Column):
    print(f"  - {column.table}.{column.name}")

执行结果：

所有表引用：
  - table_a
  - table_b

所有列引用：
  - a.id
  - b.name
  - a.id
  - b.ref_id

🛠️ AST变换与SQL自动改写

基于 AST，SQLGlot 允许你进行深度的 SQL 自动改写和优化。你可以自定义转换函数，对解析后的语法树节点进行遍历和修改，从而实现批量、规则的 SQL 逻辑变更。

from sqlglot import parse_one, exp

sql = "SELECT a, b FROM original_table"
parsed = parse_one(sql)

# 定义变换函数：将所有列名转为大写
def transformer(node):
    if isinstance(node, exp.Column):
        node.args["this"] = exp.to_identifier(node.name.upper())
    return node

transformed = parsed.transform(transformer)
print(f"原始SQL: {sql}")
print(f"变换后: {transformed.sql()}")

执行结果：

原始SQL：SELECT a, b FROM original_table
变换后：SELECT A, B FROM original_table

这个例子演示了简单的列名改写，在实际中，你可以实现更复杂的规则，例如给所有表名加上 schema 前缀、重写特定的函数调用等。

⚖️ 优势对比与适用场景分析

和 sqlparse 这类主要用于 SQL 格式化和简单分词的库相比，SQLGlot 是一个功能完整的解析器，它理解 SQL 的语义结构。与 Java 生态的 Druid 或 JSqlParser 相比，它轻量、无外部依赖，天然适合数据库/中间件/技术栈的 Python 技术栈集成。

当然，作为纯 Python 实现，其在解析超大型 SQL 时的速度可能不如用 C++ 编写的同类工具。因此，它更适合应用于以下场景：

数据库迁移与同步：将一种数据库的 SQL 脚本批量转换为另一种数据库的语法。
SQL 血缘与影响分析：通过解析 SQL 提取表、列依赖关系。
动态/程序化 SQL 生成：安全地构建复杂查询，避免 SQL 注入风险。
统一 SQL 校验与格式化：在多引擎环境中确保 SQL 风格一致。

结语

SQLGlot 的出现，让处理纷繁复杂的 SQL 方言问题变得有章可循。它不仅仅是一个转换工具，更是一个可以集成到数据管道、开发流程中的强大基础设施。如果你正在面临多数据源、跨引擎开发带来的 SQL 兼容性挑战，不妨尝试一下这个工具。欢迎在云栈社区分享你在使用 SQL 解析与转换工具方面的经验和见解。

上一篇：AI浪潮下，程序员的五个生存法则：从被动执行到主动定义
下一篇：从Pentium II到Celeron 300A：浅谈Slot 1封杀策略与AMD K7独立之路

Python, SQL, 数据库, 数据迁移, SQL转换

SQLGlot 实战指南：Python SQL解析、跨方言转换与AST操作

🚀 极简安装与基础能力

🔄 跨方言SQL转换实战

🎯 表达式构建与动态SQL生成

🔍 AST解析与元数据提取

🛠️ AST变换与SQL自动改写

⚖️ 优势对比与适用场景分析

结语

相关帖子