简介
观测云提供的可用性监测功能,是一个综合性的在线服务监控解决方案。它允许用户无需编写代码即可创建API拨测任务,借助其全球分布的监测节点,模拟真实用户在不同地域和网络环境下的访问行为。这种主动监控方式,能够全面覆盖网络质量、网站性能、关键业务端点等场景,并对用户使用体验等多维度的性能指标进行周期性的追踪与分析。

应用场景
- 多协议支持:支持基于 HTTP、TCP、ICMP、WEBSOCKET 协议创建拨测任务,从多个层面主动监控在线业务的可用性与性能。
- 全球网络监控:利用观测云遍布全球的监测点,实时感知网络性能变化,保障服务在全球范围内的可用性与稳定性。
- 站点访问性能分析:从地理分布和可用性趋势两个维度,深入分析网站或服务的访问性能。
- 实时告警通知:基于拨测任务产生的数据配置告警规则,一旦业务出现异常,系统可通过邮件、钉钉机器人等多种渠道及时发送告警通知,这对于保障业务连续性至关重要,也是现代运维体系中不可或缺的一环。
实践步骤
1、创建拨测任务
在观测云平台的「可用性监测」模块中,点击新建拨测任务。本文以最常见的 API 拨测为例进行说明。

首先,选择拨测类型(如 HTTP 协议),并填写目标 URL 地址和成功判断条件(例如,状态码为200)。

接着,根据监控需求,选择执行拨测任务的节点(可多选全球不同地区的节点),并设置拨测的执行频率,最后点击保存即可完成配置。

2、查看拨测效果
当拨测任务按照设定的频率开始执行后,你可以在「可用性监测」的概览页面和查看器中,直观地看到监控结果。
概览页会以地图和图表的形式,展示全球及中国各地区的响应时间与可用率概况。

在查看器列表中,则可以点击某一次具体的探测记录,查看详尽的性能指标分解,如DNS解析时间、连接建立时间、SSL握手时间、首字节时间(TTFB)等。

3、设置告警监控
仅仅看到数据还不够,我们更需要当服务出现异常时能第一时间得到通知。通过配置监控器,可以轻松实现这一目标。
3.1 新建可用性数据检测
在观测云的「监控」功能中,点击新建监控器,并选择“可用性数据检测”类型。

3.2 填写检测配置
根据你的告警需求,填写检测频率、检测区间以及关键的触发规则。例如,下图配置表示:如果平均响应时间大于100毫秒,则触发告警。

3.3 自定义通知内容
观测云支持完全自定义告警通知的标题和正文内容,并且可以使用丰富的模板变量(如 {{url}}, {{city}}, {{country}}, {{Result}})来动态填充信息,使告警内容更具可读性。

3.4 关联告警策略
监控条件被触发后,需要将告警消息发送给相关人员。观测云支持对接多种通知渠道,你可以在这一步关联已有的告警策略,将消息推送至钉钉、企业微信、飞书等机器人,或通过Webhook、短信、电话等方式通知。

3.5 查看告警结果
一切配置就绪后,当监控规则被触发,关联的通知对象就会立即收到告警信息。下图展示了通过钉钉机器人接收到的一条告警消息示例。

|