图灵奖得主、Postgres创始人、MIT与UC伯克利大学教授Mike Stonebraker,与卡耐基梅隆大学数据库系教授、知名技术博主Andy Pavlo,近期共同进行了一场回顾2025年的播客对谈。他们深入探讨了人工智能对数据库领域的影响、年度行业重大事件,以及AI对计算机科学教育及职业发展的作用。本文将对两位专家的核心观点进行梳理与总结。

AI 对数据库的影响
Mike Stonebraker 的审慎观点
Stonebraker对大型语言模型在企业数据管理中的实际应用持谨慎态度。他在MIT的数据仓库上测试了LLM的文本转SQL能力,初始准确率为零。即便采用了RAG、提供Schema、查询分解等标准优化技术,准确率最高也仅能达到20%到30%。
他指出,LLM在处理企业数据的四大特征时会遭遇显著困难:数据非公开、业务术语特殊、语义存在重叠,以及查询复杂(通常涉及多次连接与聚合操作)。他认为,解决混合文本与SQL的私有数据源查询(即数据湖问题)的最佳路径,是让系统顶层面向SQL而非LLM。他建议将私有数据源封装为小的SQL子集,并将文本查询视为一个查询优化问题来处理。
Andy Pavlo 的乐观展望
Andy对LLM的发展,尤其是在新应用构建和作为“氛围编码”辅助工具方面,持更为乐观的态度。他观察到,由于LLM已能生成质量接近人类编写的应用代码,未来数据库驱动的应用将会激增。他强调,在AI生成代码泛滥且缺乏专业DBA监控的背景下,利用机器学习和AI技术实现数据库的智能运维与自动化调优变得至关重要。
Andy的研究重点正是自动化调优,旨在通过AI整体优化数据库系统暴露的所有可调元素(如索引、配置参数、查询计划提示),以寻找全局最优配置。他提出利用LLM在不同数据库部署间进行知识迁移,将一个实例的调优经验应用于相似的另一个实例。尽管定制优化算法的性能可能比LLM提供的方案高出2到3倍,但LLM能以更快的速度给出结果,这构成了速度与质量之间的权衡。此外,他非常看好“推理智能体”的前景,这类智能体能够识别数据库系统中的问题,并调用特定子代理或工具来解决问题。

数据库对 AI 的影响
Stonebraker指出,业界目前高度关注智能体AI——即结合AI与其他组件的复杂工作流。这类应用通常需要“持久计算”能力,以确保在长时间运行的工作流发生错误时,无需从头重新执行所有步骤。
持久性本质上是数据库事务系统ACID特性中的“D”。目前,这主要通过数据库技术中的重做、撤销等日志记录与回放机制实现。Stonebraker预测,智能体AI将很快从当前的“只读”状态过渡到“读写”状态,这意味着数据库将接管应用状态的存储。一个关键挑战在于,如何为工作流定义ACID概念的意义,以及如何处理回滚和原子性操作。
此外,LLM固有的非确定性可能导致难以复现的“海森堡Bug”,而成熟的数据库技术则有助于解决这一问题,从而使智能体AI的运行更加稳定可靠。

2025年数据库行业动态与趋势
并购与市场出清
2025年的数据库行业活动频繁。主要并购包括:Databricks收购Neon;Snowflake收购Crunchy;IBM收购DataStax与Confluent。Fivetran正在与DBT进行合并。同时,Voltron Data、Fauna以及一家名为Mycaled DB的中国MySQL托管公司均在2025年关闭。
Postgres 的主导地位
Postgres迎来了丰收年,在开源数据库领域确立了领先地位。微软发布了采用解耦存储架构的托管Postgres版本——Horizon DB。Oracle裁撤了除Heatwave团队外的大部分MySQL开发人员,目前没有大型公司全力投入MySQL的发展。
主要云服务商都押注于Postgres的线路协议和用户体验。Stonebraker认为,Postgres的成功关键在于其由社区驱动,不属于任何单一企业。业界正在大力推动分布式Postgres的实现,包括Superbase的Multigress和PlanetScale的Neki等项目,这表明实现可扩展Postgres的时机已趋于成熟。
向量数据库的争议
向量数据库本质上是带有图索引的Blob数据存储。其核心争议在于:它应该像ElasticSearch一样保持为专业化数据库,还是应该演进为支持事务和SQL等全功能的关系型数据库。Stonebraker提醒,花哨的向量索引通常受限于主内存容量,一旦数据无法完全放入内存,性能将急剧下降;同时,向量数据的更新也是一个极其复杂的问题。
GPU 加速数据库
Voltron Data的失败并不意味着GPU数据库方向的终结,相反,它证明了将数据从磁盘快速流式传输到GPU是可行的。Andy预计,到2026年,主流数据库供应商将宣布支持GPU加速。

观点总结与延伸思考
LLM在Text-to-SQL上的应用是国内近年来的热门方向,许多数据库管理工具已将其作为标配功能。Stonebraker的测试结果(近乎不可用)无疑为这一方向泼了一盆冷水。而Andy由于自身的创业背景,更关注AI for DB,即利用人工智能技术对数据库对象、参数进行自动化调优,对此他态度乐观。国内大厂也在进行类似探索,但尚未大规模铺开,目前更多是作为客户可选的自主功能。这引发了一个类似于新能源汽车自动驾驶的责任归属问题。
Stonebraker对智能体AI提出了独到见解,即“持久性”问题。智能体AI的工作流链路长、中间过程不可控,当前中间状态信息仅为“只读”,未来一旦需要“读写”,就必然离不开关系型数据库的ACID理论支撑。借此,他成功让数据库技术与AI热潮产生了强关联。
关于向量数据库和Postgres热度的讨论已成行业常态。当前普遍共识是,向量数据库本质上是一个索引数据库,其未来方向仍存争议:是专注于向量检索这一垂直领域,还是扩展为支持事务的通用数据库?这在MongoDB、Elasticsearch等数据库发展初期也曾出现。对于Postgres全球流行的根本原因,Stonebraker一针见血:它不属于任何公司,由社区驱动,这是其成功的最关键要素。