问题描述
自几个月以来,我一直在Google GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾经监视container_cpu_usage_seconds_total
。
但是,由于我将GKE的节点从1.15升级到1.16,所以我丢失了container_*
信息。
为了测试它,我创建了一个带有1.15版本的新集群。我从Google Marketeplace安装了Prometheus,并逐步升级了GKE,直到出现问题为止。同样,container_*
监视从版本1.16停止。
我是唯一遇到此问题的人吗?有没有人找到解决方案?
感谢您的帮助:)
瓦伦丁
解决方法
我发现出了什么问题。
使用docker或kubernetes,node-exporter不会发送pod指标(container_*
)。
必须安装Cadvisor(在Google Marketeplace中,Cadvisor安装在节点导出器映像中)
从Kubernetes 1.16开始,Cadvisor的配置错误。您应该编辑配置以解决问题
所有信息均在此帖子中:Prometheus not receiving metrics from cadvisor in GKE