总览/应用

关键指标分析

分析告警事件、平均恢复时间MTTR、平均处理时间MTTA

这是某个团队一个月的告警数据剖析:

  • 告警数量在11-18前相对稳健,平均在3-5个告警。第3周告警突飞猛进,原因是新的业务上线,引发突增。经过周回顾,优化监控策略,在第4周经过初步优化,告警数量有所降低,运维团队工作初见成效,还需要继续优化。
  • 告警响应时间 MTTA ,基本上都能够比较好的响应,基本在5分钟内响应。说明整个团队的响应及时率是不错的。同时也看到在第3、4周六的时候,明显的响应时间延迟较大,说明一个问题,周末的支撑工作有提升空间。
  • 恢复时间 MTTR ,基本保持在20分钟左右,说明恢复比较及时,但是也有可能存在事件无需关注,自动恢复。后者需要针对事件的类型、根源进一步分析,后续文章再剖析。
  • 升级,目前该团队基本上是5分钟升级,所以会看到在大部分问题能在5分钟内响应完成。

Top告警内容

频繁发生和持续较长的告警内容分析

Top告警对象

分析那些告警对象发生故障

小结

致力减少告警数量、及时响应 MTTA 、如果不能及时响应,能够升级处理,最终提升解决时间 MTTR,4个核心关键指标是运维支撑工作非常关键的指标。


如果您对 OneAlert 感兴趣,可以选择使用我们的产品,只需要点击下面的按钮免费注册即可。


注册,永久免费使用 OneAlert