一个在全球最权威SQL榜单BIRD-Bench上低调霸榜超过两个月的国产AI解决方案,近日选择了高调开源。

主角是蚂蚁数科。在第二届CCF中国数据大会上,它正式宣布开源其数据智能体关键技术——Agentar-SQL系列。
此次开源不仅包含实时文本转SQL(Text-to-SQL)框架的全套论文、代码、模型和使用指南,后续还将陆续开源数据库理解与挖掘、行业知识挖掘、实时多轮交互技术框架,旨在覆盖从意图理解、业务理解到数据理解的全链路数据能力。
在AI数据分析领域,BIRD-Bench是目前全球公认最具权威性的自然语言转SQL(NL2SQL)评测基准。今年9月,蚂蚁数科的Agentar-Scale-SQL模型在该榜单上,以执行准确率(81.67%)和执行效率(77%) 双项第一的成绩登顶,超越了谷歌、亚马逊等国际科技巨头。

自然语言转SQL(NL2SQL)技术在实际落地中面临四大核心挑战:理解模糊多义的人类口语、注入庞大的行业专业知识、解析复杂的数据库结构与关联、以及生成准确无误的复杂SQL语句。这意味着,简单的模型“套壳”远无法满足企业级应用对可靠性与准确性的严苛要求。
蚂蚁数科Agentar-SQL的核心思想在于,并非追求单一“完美”的SQL生成,而是通过系统化的工程方法,让AI真正赋能生产,使数据结果既能理解需求,也能理解业务。在某头部城商行的试运营中,其多个工具的平均查询准确率超过92%,较传统查询方案提升超3倍。
蚂蚁数科CEO赵闻飙在近期生态伙伴大会上的发言,点明了其AI布局的深层逻辑:AI的真正价值不仅在于技术先进性,更在于能否深入产业一线、解决实际问题。
Agentar-SQL的能力,正是诞生于金融行业这一数据门槛最高、业务逻辑最复杂的场景,并经受住了比公开榜单更严酷的业务考验。
始于金融“深水区”的实践
2024年初,当众多AI公司聚焦于刷榜通用能力或开发聊天机器人时,蚂蚁数科团队选择了一条不同的路径:深入金融领域这一AI落地的“深水区”。
金融场景对AI提出了极端要求:数据高度敏感且孤岛化、业务逻辑必须绝对严谨、合规要求近乎苛刻。任何AI推理都必须可解释、可审计,一个错误答案可能导致严重后果。正是在这种“没有差不多,只有百分百”的环境中,Agentar-SQL得到了锤炼。
最新的市场成绩证明了这条路径的价值:蚂蚁数科的服务已覆盖100%的国有股份制银行及超60%的地方性商业银行。同时,该公司也跻身IDC 《中国智能体开发平台2025年厂商评估》 报告的领导者象限。
技术的“好用”体现在具体场景中。在宁波银行,双方合作的智能化决策系统通过“规划-检索-推理”的智能机制,打破了传统金融服务的知识孤岛,将复杂问题回答准确率从68%提升至91%,且响应速度达到百毫秒级,并实现了推理过程的可视化与可追溯。
在上海银行,以“对话即服务”为核心的AI手机银行,让用户通过自然语言即可办理转账、理财咨询等业务,实现了从“人找服务”到“服务找人”的体验重构。
能力外溢:从金融级到产业级
在金融领域验证的方法论和能力,正被复制到更广泛的民生与产业场景。
在南京,蚂蚁数科与南京公交联合打造的公交智能体“小蓝鲸”,将金融领域验证过的 “规划-检索-推理” 逻辑应用于城市交通系统。它能够分析客流、生成优化线路并输出经济可行性报告。在其建议下开通的210路公交车,成功填补了区域公交线网空白,单日最高客流达2168人次。据悉,此类由AI建议开通的公交线路在南京已有30余条。

这是国内首次将AI智能体技术深度应用于公共交通调度系统,实现了从经验决策到数据智能规划的升级。

在能源领域,蚂蚁数科的EnergyTS能源电力时序大模型,能够精准预测发电量和市场供需。在投前决策环节,它能将原本需要2–3天的人工测算缩短至十余分钟,决策效率提升超过60倍,已助力协鑫能科等企业实现数智化升级。
按效果付费与生态共建
在商业模式上,蚂蚁数科也采取了一种创新且自信的策略——按效果付费。这种模式降低了客户(尤其是中小机构)应用AI的门槛和风险,同时也倒逼技术提供方必须深入业务,将技术转化为可量化的商业价值。
要实现这种模式的规模化,离不开生态共建。蚂蚁数科升级了“星澜计划”,从技术、运营、商机、资金四个维度赋能合作伙伴。截至目前,已与300家合作伙伴深度合作,共同服务超13000家终端客户。有合作伙伴表示,其今年30%的营收来自与蚂蚁数科的合作业务。

这种生态视野已扩展至全球。蚂蚁数科的技术方案已服务超百家海外金融机构,并于今年10月入选香港金融管理局的生成式AI沙盒项目,为其提供AI智能体服务与安全产品。这标志着,源自中国严苛金融场景的AI解决方案,正获得国际市场的认可。