从GKE 1.15更新到1.16时Prometheusnode_exporter问题

问题描述

自几个月以来,我一直在Google GKE的Kubernetes上使用Prometheus和Grafana应用程序。例如,在Grafana上,我曾经监视container_cpu_usage_seconds_total

但是,由于我将GKE的节点从1.15升级到1.16,所以我丢失了container_*信息。

为了测试它,我创建了一个带有1.15版本的新集群。我从Google Marketeplace安装了Prometheus,并逐步升级了GKE,直到出现问题为止。同样,container_*监视从版本1.16停止。

Here you can see container_cpu_usage_seconds_total and it stopped when I upgrade the node. There are 3 nodes

我是唯一遇到此问题的人吗?有没有人找到解决方案?

感谢您的帮助:)

瓦伦丁

解决方法

我发现出了什么问题。 使用docker或kubernetes,node-exporter不会发送pod指标(container_*)。 必须安装Cadvisor(在Google Marketeplace中,Cadvisor安装在节点导出器映像中) 从Kubernetes 1.16开始,Cadvisor的配置错误。您应该编辑配置以解决问题

所有信息均在此帖子中:Prometheus not receiving metrics from cadvisor in GKE