原文:Datadog, Thank You for Blocking Us: Why Vendor Lock-In No Longer Matters
作者:Karan Abrol, Yating Zhou, Pratyush Verma, Aditya Bhandari, Sameer Agarwal
日期:2026年1月9日
Datadog 在一夜之间切断了我们的可观测性服务。而我们,在接下来的 48 小时内成功迁移到了开源的 Grafana 技术栈。这个故事不仅关乎一次紧急切换,更揭示了在 AI 原生时代,传统意义上的供应商锁定风险正在急剧消退。

2025年12月15日,Deductive 团队意外地收到了一封来自 Datadog 的邮件,通知我们的账户正在接受审查。虽然被行业巨头“关注”令人有些诧异,但我们最初认为这只是个小误会,通过沟通就能快速澄清。我们完全没有料到,像 Datadog 这样体量的上市公司,会将我们这样的小型初创公司视为潜在的竞争威胁。

邮件的核心内容是提醒我们注意其主订阅协议的第 8.2 节,其中明确禁止客户对服务进行反向工程、反编译,或出于竞争目的使用其服务,包括进行竞争性分析。
尽管我们在几分钟内就回复澄清,强调自 2025 年 2 月以来,我们使用 Datadog 的 APM 平台纯粹是为了监控自身生产系统的日志、指标和链路追踪数据——这与任何依赖可观测性运行分布式系统的团队并无二致,并且与 Datadog 的 Bits AI 产品无任何关联。
然而,澄清并未奏效。不久后,我们的 Datadog 账户和 API 密钥被停用。所有集群的遥测数据摄入几乎立即停止,短短几分钟内,我们就失去了对生产系统的可见性。而这些系统的安全运行,从根本上依赖于持续不断的可观测性信号。
单点故障,还是单点机遇?
考虑到 Datadog 与我们生产环境的深度集成,最初的本能反应是等待官方回复,尝试通过常规支持渠道解决问题。当可观测性栈的切换成本极高、迁移意味着巨大运营风险时,这似乎是明智之举。
但现实是,这些假设已不再完全成立。一旦明确访问权限不会很快恢复,我们决定将这次事件不再视为一场灾难,而是一个绝佳的测试机会——用以检验在现代工具和工作流下,所谓的供应商锁定究竟还意味着什么。要理解为何这种风险感依然存在,首先得承认 Datadog 做对了什么。
“皇帝”确实穿着好衣服
2025 年,Gartner 再次将 Datadog 列入其可观测性魔力象限的“领导者”象限,这已是连续第五年。用户的评价一致称赞该平台服务的广度和卓越的用户体验。这个评估非常中肯,Datadog 的用户体验客观上非常出色,我们当初选择它,正是看中其作为一流可观测性供应商的稳固地位。

然而,在整个使用过程中,有两个事实始终存在。首先,我们的 Datadog 账单很高,大约是为同等遥测数据存储和保留所需支付的预期费用的 2-3 倍。其次,尽管平台功能丰富,但我们很少将 Datadog 用于日志、指标和链路追踪这些可靠的记录系统之外的其他用途。我们为许多几乎从未触及的工作流支付了费用。
我们意识到了这种不平衡,但和许多团队一样,并没有精力认真考虑更换。在完全脱离 Datadog 运行两周后,一个清晰的结论是:它的仪表板和工作流程确实依然更加精致。但令人惊讶的是,这种差异在实际操作中的影响微乎其微。
切换成本与供应商锁定风险的坍缩
当我们最初采用 Datadog 时,并非对切换成本一无所知——我们是有意识地接受了这种锁定。尽管 OpenTelemetry 作为供应商中立的方案已然存在,但 Datadog 的原生 SDK 和代理提供了更快的价值实现时间和更广泛的开箱即用功能。因此,我们选择了当时可用的、集成最紧密的配置:Datadog 原生 SDK 配合 Datadog 代理,以最大化链路追踪、日志、自定义指标、监控和事件响应的功能覆盖,同时最小化运维开销。这个决定反映了我们当时的现实:没有专职的基础设施团队,不想维护抽象层,也不认为自己会需要迁移。
让我们惊讶的,并非 Datadog 可以随时关闭我们的访问权限,而是这种锁定在实践中最终显得如此无关紧要。在同一天内,我们就选定了替代技术栈并制作出一个可工作的端到端演示。到第二天结束时,所有的日志、链路追踪、指标和告警都已完全恢复。
不作为的代价更高
传统观念认为,失去一个深度嵌入的可观测性平台,理应触发长达数周的迁移计划。但这种预期正与现实日益脱节。这并非因为可观测性本身变简单了,而是因为在代码层面进行有针对性更改的成本已经急剧下降。在几小时之内,我们利用完全开源的技术栈,再次让遥测数据流动了起来。

在不到 48 小时内,可观测性在开源栈上完全恢复。
Grafana Cloud 并非我们的默认首选。我们并行评估了多个替代方案,包括 New Relic、SigNoz 和基于 ClickHouse 的自建方案,仔细权衡了日志搜索语义、成本曲线、运维复杂度以及长期可移植性。最终,我们收敛于这样一个架构:在应用层最大限度地使用开放标准,同时将存储、扩展和可用性的运维责任委托给 Grafana Cloud:
- Prometheus 用于指标
- Tempo 用于分布式链路追踪
- Loki 用于日志
- Grafana Alloy 作为统一的遥测收集器
完成这次向以 Prometheus 和 Loki 为核心的开源可观测性栈的迁移后,未来类似服务中断事件的实际影响将趋近于零。Grafana Cloud 现在是唯一的托管依赖,但整个技术栈依然是开源的。它可以通过配置更改转换为自托管模式,而这种更改可以在几分钟而非几小时内传播到整个集群。
这次经历更重要的教训,实际上并非关于具体的可观测性工具,而是关于协调软件变更的成本发生了怎样的转变。那些曾经需要周密规划、专业基础设施知识以及数周执行时间的工作,现在可以被当作一个有明确边界的工程问题来处理。虽然手动使用 OpenTelemetry 达到与 Datadog 这种垂直集成平台同等的功能对等性仍然不简单,但现代 AI 辅助开发工具(如 Claude Code、Cursor 以及 Deductive 自身)已将大部分工作转变为可重复、机械化的更改。因此,由专有集成、精良工作流和广泛托管功能集所构筑的历史优势,正在开始瓦解。
闭环:代码、遥测与 MCP
在迁移过程中,有一个因素实质性地压缩了我们的迭代周期:我们通过 MCP 将 Cursor 编辑器直接与 Deductive 集成,使得 Deductive 能在代码编写和部署时,实时从 Grafana 拉取遥测数据。
这创建了一个紧密的反馈闭环。系统几乎可以立即检查每次代码变更所产生的日志、指标和链路追踪,推理检测和行为是否符合预期,进而指导后续的代码修改。在实践中,这意味着代码在编写的同时,就依据其产生的遥测数据接受评估。

代码更改在 Cursor 中持续根据实时遥测进行验证。
整个迁移过程并非将可观测性作为事后验证的步骤,而是变成了一个代码与遥测数据共同演进的交互式过程。检测的盲点、配置错误的导出器、异常的信号形态都被内联地识别和纠正,无需在编辑器、仪表板或手动检查的工作流之间来回切换上下文。
如今,Deductive 自身已成为这些遥测数据的主要“消费者”。我们几乎所有的调试和调查都通过 Deductive 进行,Grafana 则作为一个干净、可靠的后端存储与查询引擎,而非面向人类的控制平面。
可观测性领域的两个结构性转变
我们的这次被迫迁移,揭示了两个比任何单一供应商选择都更为重要的、更广泛的行业趋势。这些是可观测性系统构建和使用方式的结构性变化。
1. “广泛集成”的护城河正在崩塌
多年来,可观测性平台在集成的广度和深度上展开竞争,押注于代理、SDK、仪表板和工作流之间更紧密的耦合能够创造持久的切换成本。当集成工作缓慢而昂贵时,这一策略是行之有效的。
然而,随着 OpenTelemetry 成为通用标准层,加上 AI 辅助开发工具接管了大部分的集成“粘合”工作,实现功能对等的边际成本已经崩塌。集成的广度依然重要,但它不再能复合成一道持久的护城河。一旦组织的惯性被打破,替换即便是深度嵌入的工具,也变得比以往容易得多。
2. AI 原生可观测性正在取代以仪表板为中心的工作流
传统的可观测性假设人类操作员通过仪表板、图表和查询构建器来探索系统状态。但实际上,工程师是带着假设、沿着代码路径、结合最近的变更来进行推理的,而非仅仅盯着可视化图表。
在 AI 原生的世界中,AI 智能体才是这些数据的真正“用户”。仪表板不会消失,但它们退居次要地位。构建查询、遍历链路追踪图谱等机械性任务,正越来越多地交由机器完成,尤其是在分秒必争的故障应急期间。
结语:AI 原生世界中的可观测性
这次迁移的教训,并非指 Datadog 是一个糟糕的产品,或者 Grafana 在绝对意义上更优。Datadog 依然是一个构建异常精良的平台,拥有一流的用户体验,其在这方面的投入有目共睹。同样,Grafana 生态系统也凭借其强大的开源根基、清晰的抽象和可组合的架构,赢得了作为现代可观测性稳健基石的应有地位。
更深层次的启示在于,可观测性的价值重心正在发生转移。如果你主要为 Datadog 的高端存储和数据摄入层付费,那么值得认真重新审视这笔支出是否与 AI 原生工作流中可观测性的实际消费方式相匹配。在那个世界里,韧性并非来自避免变化,而是源于让变化变得廉价。我们这次被迫的迁移表明,曾经看似灾难性的供应商锁定,如今更像是一次可快速恢复的配置变更。这是现代软件系统运营经济学中一个意义深远的转变。
可观测性不再仅仅是收集信号。它是关于在不确定性中实现快速、准确的推理。未来的赢家,将是那些拥抱这一现实并为之设计的工具——在那个未来,人类与 AI 智能体将在“意图”层面直接协作,而非通过界面进行交互。
那个未来,已然到来。
本文旨在分享一次真实的技术迁移案例与行业思考,更多关于 DevOps、云原生和可观测性的深度讨论,欢迎访问 云栈社区 与广大开发者交流。