在超大规模数据基础设施的运维实践中,人力瓶颈日益凸显。作为中国电信旗下全栈云服务商,天翼云已在生产环境中落地 30+ 个 Apache Doris 集群,支撑公有云、私有云、边缘计算等多样化业务场景。面对日均 10+ 起故障、告警过载、版本碎片化等挑战,传统依赖专家经验的“人肉巡检”模式已难以为继。
为此,天翼云率先构建了 基于 Apache Doris MCP Server 与大语言模型(LLM)的智能运维体系,在保障系统稳定的同时,显著提升运维效率。本文将分享我们在慢 SQL 诊断、集群健康评估、版本质量保障三大场景中的落地经验。
一、为什么选择 Apache Doris MCP?
2024 年底,MCP(Model Context Protocol)协议兴起,为 AI Agent 调用专业工具提供了标准化接口。尽管多家数据库厂商推出了 MCP Server,但天翼云在评估后认为,Apache Doris MCP Server 更契合企业级运维需求,原因在于:
- 工具生态丰富:原生提供 25+ 个专业工具,覆盖查询分析、元数据管理、性能监控等核心场景;
- 深度集成 Doris 内核:支持 Profile 解析、Tablet 健康度计算、BE/FE 指标采集等高阶能力;
- 开放可扩展:基于 Python + FastAPI 构建,便于集成自研工具(如 Profile 可视化模块)。
二、三大核心场景落地实践
场景一:慢 SQL 智能诊断 —— 从“小时级”到“分钟级”
传统挑战
- 慢 SQL 排查高度依赖个人经验,不同工程师结论可能存在差异;
- 全面分析一个集群的慢查询通常需 1~2 小时,且易遗漏深层瓶颈。
智能诊断方案

我们通过 MCP 工具 + 结构化提示词(SOP) + 分治并行策略,构建了两级诊断流程:
- Top-N 筛选:利用 MCP 工具自动提取执行时间长、资源消耗高、扫描量大的慢查询;
- 两级分析:
- 整体评估:生成任务组报告,包含 CPU/内存趋势、数据倾斜风险、对集群负载的影响;
- 单任务深挖:解析 Pipeline 执行计划、算子耗时分布、I/O 瓶颈等细粒度指标;
- 结构化输出:AI 按预设模板返回 JSON 结果,前端动态渲染为图文报告,提升可读性。
关键技术优化:
- 通过提示词约束 AI 分析维度,避免“自由发挥”;
- 将复杂诊断拆分为独立子任务,并行调用 LLM,有效规避超时问题;
- 新增
get_sql_profile、analyze_slow_queries_topn 等专用 MCP 工具。
效果验证(基于内部 10,000+ 条历史慢 SQL 样本回测):
- 诊断耗时:<5 分钟(原需 1~2 小时)
- 诊断准确率:99.99%(指 AI 结论与资深 DBA 复核结果一致的比例)
- 相比传统方式,效率提升约 95.8%
注:当前 AI 诊断结果仍需运维人员最终确认,尤其在涉及配置调整或数据修复时。
场景二:集群健康主动体检 —— 从“被动响应”到“主动预防”
传统痛点
- 告警数量庞大,真实故障易被淹没;
- 问题往往在业务受损后才被发现。
智能体检机制

我们设计了 双模诊断框架:
| 模式 |
触发方式 |
能力 |
| 被动式 |
监控告警触发 |
AI 分析根因,推荐标准处理流程(SOP) |
| 主动式 |
定期自动巡检 |
全面评估集群及表级健康状态 |
表健康度量化模型(天翼云自研)
为客观衡量表的运行状态,我们定义了一套多维加权健康评分模型:

其中:
- Tablet 健康度:通过分桶大小方差识别数据倾斜;
- Segment 健康度:控制小文件数量,避免查询“漏斗效应”恶化。
效果:
- 集群全面体检时间:约 10 分钟(原需 6 小时)
- 可提前发现副本缺失、版本堆积、热点分片等潜在风险,实现主动 运维 预防。
场景三:版本质量自动化保障 —— 降低发版风险
实践方案

我们构建了 AI 驱动的质量闭环:
- 一体化 CI/CD 流水线:
- 自动完成编译、UT/集成测试、POC 环境部署;
- 执行 TPC-H/TPC-DS(1TB)及用户核心场景回归测试;
- AI 智能分析:
- 对比历史版本性能曲线;
- 识别异常波动(如某查询延迟突增);
- 输出质量评估报告与优化建议。
收益:
- 发版验证全程 无人值守,仅需一键触发;
- 在内部测试中,质量评估准确率达 80% 以上,显著提升问题发现效率。
三、未来规划
当前,智能运维已覆盖诊断、体检、质保三大场景。下一步,我们将重点推进:
- 增强 MCP 工具链:新增向量化查询分析、存算分离监控等能力;
- 探索智能咨询服务:结合知识库,为用户提供 NL2SQL、调优建议等交互式支持;
- 深化内核协同:推动 Doris 3.x 存算分离、湖仓一体能力在云原生场景落地;
- 优化 AI 测试策略:让模型自动组合用户用例,挖掘隐藏并发问题。
结语:AI 是专家经验的“放大器”,而非替代者
天翼云的实践表明:真正的智能运维,不是用 AI 取代人,而是将专家经验产品化、工具化、自动化。
通过 Apache Doris MCP Server,我们把“DBA 脑中的 SOP”变成了可调用的工具,把“模糊的经验判断”变成了可量化的健康评分。这不仅释放了人力,更让运维从“成本中心”逐步转向“价值引擎”。
未来已来,唯快不破。在 Data Agent 时代,构建“ AI + 专业工具”的闭环,将成为下一代数据基础设施的核心竞争力。
本文分享的天翼云智能运维实践,展现了 数据库 与前沿 AI 技术结合的巨大潜力。想了解更多类似的深度技术解析与行业落地案例,欢迎关注 云栈社区 ,与广大开发者一起交流成长。
|