问题描述
我有一个普罗米修斯计数器(spring_batch_job_seconds_count {status =〜'Failed'}),用于计数作业失败。我想绘制一段时间内的作业失败并提醒作业失败。增加功能给了我我想要的东西,除了第一次出现。直到发生故障,计数器才会发布,因此第一个故障事件不会增加(或增量或速率),因为没有先前的计数器值0可以将第一个非零计数器值与之进行比较。如何创建一个图表,以显示第一个故障发生(以及随后的故障发生)和相应的警报,该警报将在第一个故障发生(以及以后的故障发生)时触发?我可能愿意满足以下两个警报:一个在计数器增加时触发,另一个在第一次发生时触发,但是我不想手动关闭在第一次触发后触发的警报第一次。
解决方法
我设法使用 Falco 指标做到了这一点。
我想提醒任何变化,即使是第一次出现指标。
(sum(falco_events{k8s_pod_name="runner"} or falco_events{} * 0) by (k8s_pod_name,rule) - sum(falco_events{k8s_pod_name="runner"} offset 5m or falco_events{} * 0) by (k8s_pod_name,rule))
此处的解决方法:https://github.com/prometheus/prometheus/issues/1673