云栈社区»论坛 › 技术文档「 Note & Doc 」 › Datadog Bits AI SRE Agent深度解析：如何实现故障根因自动调查 ...

发回帖发新帖

2034 积分	0 好友	268 主题

发消息

Datadog Bits AI SRE Agent深度解析：如何实现故障根因自动调查与定位

发表于 2026-1-21 10:50:49 | 查看: 83| 回复: 0

LLM在SRE领域最具潜力的应用方向之一，便是AI驱动的运维智能体。作为行业内的领军者，Datadog近期正式推出了其AI SRE解决方案——Bits AI SRE。本文将深入探讨其核心工作机制、评估方法并展示实际效果。

作者： Daniel Shan, Tristan Ratchford
原文： https://www.datadoghq.com/blog/building-bits-ai-sre/

我们构建Bits AI SRE的初衷，是帮助工程师调查并解决生产环境故障——这在当今复杂的分布式系统运维中，堪称最具挑战性的任务之一。系统环境正变得日益动态和复杂，故障排查的难度也随之攀升。如今的故障往往涉及更多服务、更嘈杂的信号以及海量的运维 & 测试遥测数据，使得值班工程师很难迅速定位根本原因。目前，Bits AI SRE已成功帮助团队将问题解决时间缩短了高达95%。

Bits AI SRE是一种新型的智能体，它能自动调查故障和监控告警，通过自主分析复杂的遥测数据，在几分钟内生成可供审计的根因分析报告。其核心在于模仿人类SRE的思维方式：提出假设、利用实时数据验证，并沿着有希望的证据线索顺藤摸瓜，直至找到问题根源。

Bits AI SRE构建目标流程图

接下来，我们将展示如何基于真实数据评估Bits AI SRE，分享其性能结果，并重点解析这一智能体的设计特点。

基于真实故障场景的基准测试

要构建一个真正有效的AI SRE智能体，基于真实故障进行评估是基础和关键。这是衡量实际进展、并确保智能体能够应对真实世界复杂性的最可靠方法。凭借业界规模最大的生产环境遥测数据集，Datadog在此方面拥有独特优势。

我们与公司内部数百个团队协作，收集并标注了大量真实的故障案例，以此构建了一个用于测试的基准数据集。通过将Bits AI SRE的输出与每个案例的实际根因进行对比，我们能够客观评估其性能。

代理结论评估工作流程图

我们利用这一基准来定期衡量智能体的性能并驱动持续改进。在过去一年中，智能体的能力得到了显著提升，并且随着我们不断迭代，预计它会变得更加强大。

Bits AI SRE各版本基准测试得分柱状图

像人类一样调查，而非简单的总结引擎

Bits AI SRE的调查方式，更像是一个SRE团队在执行值班调查。它并非简单地将所有原始遥测数据一次性总结，而是模仿人类进行有逻辑的推理。

具体来说，Bits AI SRE会：

针对潜在的根本原因生成假设
通过执行有针对性的查询，利用数据来验证或推翻这些假设
重复这一过程，直到定位到根本原因

这种方法显著减少了可能分散智能体注意力或使其偏离正确方向的噪声数据，使其能够跟随证据线索，进行深入且富有洞察力的调查。

Bits AI SRE假设驱动调查流程示意图

关注因果关系，有效过滤噪声

早期的一些SRE智能体倾向于通过调用更多工具并让LLM总结所有响应来扩展能力。然而，这种方法存在明显缺陷：增加工具调用次数会导致总结提示的输入Token数量线性增长。这意味着纳入更多遥测数据反而可能逐渐降低模型性能，甚至超出其上下文窗口的限制。

在下面这个故障案例中，Kafka消息积压是由偏移量提交延迟的峰值引起的。Bits AI SRE的早期版本在日志、追踪和指标上共执行了12次工具调用。其中一次调用正确地指出了根本原因，但由于其他工具响应中包含了许多可疑信号（例如上游服务中的严重应用程序错误），总结提示最终返回了错误的根本原因。

Kafka偏移提交延迟峰值指标图

对多组件问题进行深度递归调查

在复杂的故障场景中，根本原因可能横跨多个系统，或者需要经过多个步骤的推理才能被发现。要定位这类多组件的根本原因，模型需要能够串联多个独立的信号。

Bits AI SRE在调查时，会将复杂的假设分解为多个子假设。当证据支持某个子假设时，智能体会继续深入挖掘。如果证据不支持，它会转向其他可能的线索，就像人类SRE跟随最有希望的调查方向一样。

在下面这个故障案例中，智能体收到了Pods处于CrashLoopBackOff状态的告警。Bits AI SRE的早期版本发现，告警是因为某个Pod内存不足而被触发的。

OOM导致Pod崩溃的调查结论图

虽然这个答案从表面上看是正确的，但最新版本的Bits AI SRE会进行更深一层的探究。它能发现，内存不足是由异常巨大的数据负载涌入造成的，正是这些负载导致单个Pod崩溃，从而触发了告警。这个版本的智能体会递归地生成更深层次的根因假设，直到穷尽搜索空间，从而对告警进行更深入、更具洞察力的调查。

对CrashLoopBackOff告警的深度递归调查流程图

Bits AI SRE的未来发展

过去一年的实践让我们认识到，解决真实世界的SRE问题，始于建立一个基于真实生产系统数据的稳健评估框架。我们相信，这是确保智能体能够可靠处理日常运维挑战的最佳途径，而高效利用生产数据的能力，将成为决定谁能构建出最强大SRE智能体的关键分水岭。

我们才刚刚开始探索自主SRE智能体的可能性。Bits AI SRE已经收获了客户的广泛好评，他们观察到在复杂故障的根因检测时间上实现了大幅缩减，并且该智能体仍在持续进化中。

我们正在积极扩展Bits AI SRE的能力，以覆盖更多真实世界场景和数据源。同时，我们也在深化其功能，将其与Datadog平台上构建的更多专家调查器和优化智能体进行集成，旨在使Bits AI SRE能够驱动端到端的自动化解决方案工作流。

译者点评

Datadog Bits AI SRE采用“提出假设-验证假设”的推理路径，这一方法论本身是合理的。但一个核心问题是：它最初是基于什么来生成假设的呢？文中并未详细披露，是基于历史故障的标注数据，还是融入了人类专家的经验规则？

Bits AI SRE的做法与有些国内产品（如Flashcat）的AI思路有所不同。后者倾向于构建明确的知识图谱（如“灭火图”），让AI按图索骥，这种方式非常精准，但构建和维护知识图谱本身需要投入。Bits AI SRE看起来更依赖于模型自身的推理能力进行“探索”，效果如何有待更多实践验证。

对人工智能如何变革传统运维与SRE实践感兴趣的开发者，欢迎到云栈社区的运维/DevOps/SRE板块交流讨论，分享你的见解与案例。

上一篇：Claude Cowork文件安全风险实测：AI代理误删11GB文件，权限管理成焦点
下一篇：Python神经网络从零实现：100行代码搭建简易分类模型

Datadog, AISRE, 运维自动化, 根本原因分析, 故障调查