集群自动缩放指标的Prometheus警报规则

问题描述

我想为以下情况创建一个普罗米修斯警报规则,

Max capacity reached for the cluster

Unusual Scaling activity

我认为“群集达到的最大容量”可以通过结合以下指标来获得,

1.cluster_autoscaler_unscheulable_pods_count >0

2. sum(cluster_autoscaler_unneeded_nodes_count)==0

并且,“异常扩展活动”可以从sum(cluster_autoscaler_scaled_up_nodes_total)中获得

我已为Cluster autoscaler启用了度量标准,但是我不确定如何使用这些度量标准创建prometheus规则表达式,是否应该创建任何服务监视器?如何为上述方案结合这些指标?您是否已经有用于群集自动缩放器指标的Prometheus规则示例?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)