告警压缩

告警风暴问题

可能大多同学都碰到过告警风暴,有个极端的案例:有个服务提供商 4 万台服务器每小时生成超过 60 万个事件,而且其中有 4.7 万张事件Incident工单,每月有 2000 次以上的二级升级。也就是说,每天都有 66 次升级,不过这还不是最糟糕的。最糟的是,这 4.7 万张事件工单须由几百号人进行手动分析、排列优先级以及分类。

当然大多情况下可能是部分应用/设备故障,引发的中等规模(数百-数千)告警爆发,手机和邮箱都爆掉了会引发:

  • 狼来了的故事,重要故障往往淹没在大量的故障事件中,被忽略掉了。
  • 难以根源追溯,根源追溯本身就是很困难的事情,在大海中捞针更是难上加难。

告警压缩机制

OneAlert 告警设计理念是,精准告警、通知到达,和大多的监控软件相比:

  • 相同事件通知仅发送一次,通过各种方式通知到位,包括短信、电话、微信、邮件以及延迟通知等。无人处理,会自动升级至2线。
  • 类似事件通知会合并发送,并不会每次都发送。

核心思想就是:告诉你有事,有什么事。而不是不断告诉你有事情,每一个事情是什么样。

  • 告警合并,将相同、类似、可能相关的事件能够自动合并关联起来,整个过程是自动化的
  • 通知合并,将告警通知数量降低。

优点

  • 缩短运营团队发现问题所需时间
  • 降低工单与事件的比值
  • 降低重复工单的出现频率
  • 减少工单检查,减少团队的生产力消耗

如果您对 OneAlert 感兴趣,可以选择使用我们的产品,只需要点击下面的按钮免费注册即可。


注册,永久免费使用 OneAlert