分析

运维不容错过的 4 个关键指标!

优秀的运营支撑团队会拿数据说话,建立起数据指标驱动的工作文化。帮助团队衡量并提高运维效率,以下整理了 4 个关键性运维指标:

  • 告警事件数量
  • 平均解决时间( MTTR )
  • 平均响应时间( MTTA )
  • 分派/升级

告警事件数量

随着公司的发展,组织结构会调整,同时业务产品也会不断升级,配套监控也会同步上线,告警事件数量会急剧增加。「我们浪费了大量时间来关闭冗余报警。」--相信很多同学都会有类似的体会。告警事件数量是可控的:

  • 告警数量可统计,如这周告警数量是多少,与新发布的产品系统有没有关系,发生哪些问题?
  • 告警数量是可操作的,意味着每一个告警都是有意义并且是需要处理和操作的,如果仅仅是瞅一眼的数据,请不要通过告警方式。

例如100+机器时,每台机器的「CPU 使用率高」告警是没有啥用的,你知道机器 CPU 使用率高后,你能做什么操作呢?你可能直接忽略掉,当数量大到你把需要处理的告警也忽略掉时,告警就失去了意义。类似指标完全可以通过周报/日报进行数据的性能分析,而不是告警。

平均解决时间( MTTR )

解决时间是衡量业务准备的最佳标准。当事件发生时,你的团队需要多长时间才能解决? 宕机不仅会影响你的收入,还会伤害客户用户体验和忠诚度,所以确保团队对所有事件可以快速响应极为关键。

当然,跟踪解决时间固然重要,但对其进行规范往往很难,企业可以根据环境的复杂性、团队和基础设施的责任制、行业及其他因素,进一步观测 MTTR 的差异。但是,规范化的操作手册、自动化的基础设施管理、可靠的告警升级策略都有助于减少事件,和提升 MTTR。

优秀的团队减少事件数量,并及时解决( MTTR ),所以平均解决事件需要和上面告警数量一样,需要记录和统计分析。

平均响应时间( MTTA )

如果说平均解决时间是结果,那么平均响应时间就是重要的过程指标,这一点往往被大多团队忽略掉。可以理解为告警越快发现,越快有人响应,就能够越快的解决(更好的MTTR)。

在OneAlert的PC、微信、APP处理告警时,如果有人认领/确认该问题,则其他人就知道该问题在处理中,就不会出现同时处理可能引发的其他问题。

响应时间非常重要,因为它能帮助你了解哪些团队和个人处于随叫随到的状态。快速响应时间是一个战备文化的代表,你会发现具备快响应观念和工具的团队往往可以更快地修复事件。

分派/升级

有序分派 将告警分派给不同团队,评估每个团队的生产效率,才能持续优化。

优秀的运维团队需要建立起有效的一线、二线、甚至三线响应机制,告警及时通知到一线,如果一线没有及时处理,可以自动升级至二线运维,保障每一个重要事件能够得到及时响应和处理。

对于大多数使用事件管理工具的组织而言,告警升级是一种异常现象,该迹象表明首次应该响应的时候,无法及时应对事件,或许相关工具和人员技能失效。各个团队应努力推动升级,实现升级事件数量的下降。


如果您对 OneAlert 感兴趣,可以选择使用我们的产品,只需要点击下面的按钮免费注册即可。


注册,永久免费使用 OneAlert