linux – Nagios – 不确定应该更改哪个间隔以限制发生错误时发送通知的次数

我有一台Nagios服务器,可以监控许多服务器.
我们有时会遇到一个当时无法解决的错误,我们暂时离开它.
当它发生时,我们会不断收到有关失败服务的电子邮件通知.
因此,如果我们在第二天没有处理问题 – 我们会收到大约500封有关它的电子邮件通知.
现在我的问题是,notification_interval和interval_length之间有什么区别,我应该编辑哪个值？
我愿意以一种方式配置它,当发生错误时,我将只收到1个关于该问题的通知,而不是每小时收到10个通知.
我希望Nagios在发生错误时只发送一次电子邮件,每12小时发送一次电子邮件,直到错误得到解决.
如何实现？

解决方法

您应该单独保留这些设置并使用Nagios中的确认功能.

这允许你告诉Nagios你知道这个问题,然后它会抑制通知发出直到状态改变(即它变得更糟,或者开始振荡,或者错误消失,在这种情况下警报也将停止).

有关此功能的更好解释,请参见Acknowledge_Host_Problem.对不起,我找不到比这更新的页面,但它足够好地解释了这个概念.

要直接回答你的问题,即使我认为还有更好的方法：

> interval_length是秒数 – 默认为60
> notification_interval是通知之间所需的间隔长度数.如果你单独留下interval_length,这将是通知之间的分钟数.

因此,为了在通知之间获得12小时,您可以将notification_interval设置为720,并将interval_length设置为单独使用.

但我仍然认为确认设置更好,因为它允许Nagios继续唠叨你的团队,直到他们采取某种行动.

请注意,无论哪种方式,Nagios仍可能会更频繁地发送通知,具体取决于发生的情况.我有关于cpu使用的警报,它在刚好高于临界阈值之间振荡 – 无论我做了什么,每次超过临界阈值时,都会发出警报. flapping detection in Nagios用于处理这些情况.或者您可能想要查看警报阈值.

linux – Nagios – 不确定应该更改哪个间隔以限制发生错误时发送通知的次数

解决方法

相关文章