问题描述
我在少数警报策略上使用基于日志的指标,这些警报策略会在日志中显示特定错误时触发警报。
问题是,事件创建后就无法解决,因为当没有错误时,度量标准图将显示“没有数据”,而不仅仅是0。
容器的度量标准也是如此。容器死亡时,警报不会自动解决(仅在7天后)
fetch k8s_container
| metric 'logging.googleapis.com/user/errors'
| group_by 1m,[row_count: row_count()]
| every 1m
| group_by [],[row_count_aggregate: aggregate(row_count)]
10x
解决方法
我已通过更新警报策略来解决此问题,以对汇总和“最新值”等于“一分钟后”的条件都使用总和(而不是计数器)
这会导致出现新错误时触发警报,但一分钟左右也会解决。
10x
,“无数据”和值“ 0”之间没有区别。最后,它们意味着什么都没有。另外,似乎没有办法更改此默认配置。
我已经查看了GCP Container和Kubernetes metrics的官方文档,但找不到适合该案例的内容。
但是您可以创建警报来监视此行为。
我发现了这个tutorial,可以帮助您使用Stackdriver创建缺少监视数据的警报。