找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1912

积分

0

好友

270

主题
发表于 2025-12-25 04:55:01 | 查看: 30| 回复: 0

2025年底,两位数据库领域的顶尖人物——PostgreSQL的发明者Mike Stonebraker与卡内基梅隆大学的数据库教授Andy Pavlo——进行了一场深度对话,探讨人工智能技术正在如何重新定义数据库的未来。其核心观点发人深省。

一、LLM + SQL:理想与现实的巨大鸿沟

过去一年,Text-to-SQL在Spider、BIRD等基准测试上成绩斐然,准确率高达60%–90%。然而,Mike Stonebraker提出了一个尖锐的问题:这些漂亮的数字,在真实的企业环境中还能成立吗?

现实实验揭示的残酷真相:几乎不可用

在麻省理工学院一个真实的数据仓库环境中,研究团队进行了一项朴素的测试:

  • 数据库:真实的业务数据库。
  • 问题:真实用户提出的自然语言问题。
  • 基准:人工编写的标准SQL(Gold SQL)。
  • 测试对象:多个主流大语言模型(LLM)。

结果令人震惊:初始准确率为0。即便引入了当前业界常见的改进手段,如RAG、提供Schema、查询拆解与多轮推理,最终准确率也只能艰难提升至20%–30%,距离生产可用的要求相去甚远。

为何企业数据库对LLM如此不友好?

Mike总结了企业数据库环境中四个几乎“反LLM”的特征:

  1. 数据非公开:模型在训练中从未接触过这些私有数据。
  2. 强领域特异性:表名、列名高度自定义,隐含大量业务语义。
  3. 语义重叠严重:存在大量视图、物化视图和派生表,加剧理解难度。
  4. 查询结构复杂:动辄涉及多表连接、聚合与嵌套子查询。

在这种环境下,期望LLM直接生成准确的SQL,无异于一次“注定失败的尝试”。Mike的观点非常明确:与其让不擅长的LLM来编写SQL,不如将SQL本身作为顶层接口,把复杂的语义理解和优化工作交给成熟的查询优化器。

二、另一种未来:AI写应用,人类遗忘数据库

与Mike的谨慎形成对比,Andy Pavlo对AI持更乐观的态度。但他的乐观并非源于Text-to-SQL,而是来自Agentic AI(智能体)和“氛围编程”(Vibe Coding)

“氛围编程”已成为现实

Andy指出一个显著趋势:越来越多的应用程序几乎完全由LLM或智能体编写。一年前,AI或许只能完成课程项目的一半;如今,它已经能够交付一个基本完整、可运行的系统。随之而来的问题是:应用代码有人生成了,但背后的数据库却无人照管。 索引、参数调优、执行计划分析——这些关键的运维工作被忽视,可能引发性能灾难。

三、数据库运维:AI最现实的落地场景

Andy近年来专注的研究方向正是利用机器学习与AI实现数据库的自治运维。他们的研究发现务实而有趣:

  • 在许多特定任务上,专用算法仍然比LLM的效果好2-3倍
  • 但LLM的优势在于跨数据库的迁移能力、冷启动快、推理速度快

因此,真正有潜力的方向并非“一切交给LLM”,而是构建一个具备推理能力的智能体(Agent)。它能判断问题类型,并调用最合适的专用子系统来处理,其架构思想非常类似传统的数据库执行引擎:Planner(规划器)+ Executor(执行器)+ 专用算子,只不过“规划器”升级成了AI。

四、智能体AI终将面对数据库的“经典难题”

当讨论深入到Agentic AI时,Mike抛出了一个被严重低估的核心问题:持久性(Durability)
智能体的工作流通常具有执行时间长、可能中途失败、不希望从头重来的特点。目前大多数智能体仍是“只读”的,一旦它们需要进行“读写”操作,就不可避免地要面对日志、回滚、原子性、事务语义等数据库早已解决的问题。Mike的判断极具预见性:Agentic AI最终会“重新发明数据库”,或者更现实地说,将直接使用成熟的数据库来可靠地承载和管理应用状态。

五、2025:PostgreSQL赢得数据库之战

在年度回顾中,Andy列举了一系列行业并购与融资事件,但所有变化之上,一个清晰的趋势已然确立:PostgreSQL成为了事实上的默认数据库选择。Mike的评价一针见血:PostgreSQL体现了“开源本该有的样子”——它不属于任何单一公司,而是真正属于社区。

六、向量数据库:护城河并非不可逾越

两位专家对向量数据库的判断也高度一致:它本质上是一个索引系统,存在更新成本高、强依赖内存、数据规模溢出后性能骤降等挑战。在他们看来,向量搜索能力最终很可能被PostgreSQL这类不断演进的通用数据库系统所集成和吸收。

七、给工程师的务实建议

讨论最后,Andy给出了非常务实的职业建议:LLM是强大的辅助工具,可以用来完成作业、编写代码,工程师应当积极使用。但它无法替代系统性的深度理解。长期来看,真正构筑职业护城河的能力依然是:

  • 扎实的系统基础(数据库/操作系统/网络)。
  • 阅读和维护大型遗留代码的能力。
  • 调试复杂并发与性能问题的实战经验。

这些核心能力,在可预见的未来都不会被AI取代。

结语

2025年,AI并未“颠覆”数据库世界。相反,它正在不断撞上并重新认识数据库领域几十年来已解决的经典问题。或许,真正的趋势并非是“AI吞噬数据库”,而是数据库正在成为智能体AI时代不可或缺、坚实可靠的地基。对于开发者而言,掌握如何利用像Node.js这样的现代技术栈与AI协同构建应用,同时深刻理解底层数据库原理,将是应对未来的关键。




上一篇:基于RAG的企业数仓智能答疑系统架构实践与优化
下一篇:拼多多Temu增长引擎解析:全托管电商模式与中国供应链的技术融合
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-10 18:36 , Processed in 0.655704 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表