问题描述
我尝试使用 n1-highmem-4 池创建 GKE 集群(版本:1.18.15-gke.1500)。 一切正常,直到我尝试安装舵图。 helm 二进制文件(版本:3.5.2)最终出现错误“http2 连接丢失”。 GKE 触发自动修复模式。 我不明白为什么,因为我使用 kubectl 创建一些 configmap 没有问题。 您知道是否可以在某些地方找到有关矿池机器或 GKE 总体规划的日志?
解决方法
如果没有关于该集群是如何创建的、使用 Helm
应用了哪些资源以及来自集群的日志(我将说明如何检索)的信息,可能很难查明问题和原因后面。
概述:
GKE 的节点自动修复功能可帮助您将 nodes 中的 cluster 保持在健康的运行状态。启用后,GKE 会定期检查集群中每个节点的运行状况。如果某个节点在很长一段时间内连续未通过健康检查,GKE 会启动该节点的修复过程。
-- Cloud.google.com: Kubernetes Engine: Docs: How to: Node auto repair: Overview
回答发布的问题:
你知道我是否可以找到有关矿池机器或 GKE 总体规划的日志吗?
是的。您可以通过多种方式检查集群运行状况及其日志。
GKE
生成自动修复事件的日志条目。您可以使用以下命令检查日志:
gcloud container operations list
输出应类似于以下内容:
operation-XXXXXXXXXXXXX-XXXXXXXX CREATE_CLUSTER europe-west3-c example-cluster DONE 2021-03-07T11:59:55.133563829Z 2021-03-07T12:03:09.684215827Z
operation-YYYYYYYYYYYYY-YYYYYYYY AUTO_REPAIR_NODES europe-west3-c gke-example-cluster-default-pool-AAAAAAAA-AAAA DONE 2021-03-07T12:21:14.814774338Z 2021-03-07T12:24:15.6305881Z
除此之外,您还可以使用以下命令查找特定节点日志:Google Cloud's operations suite (formerly Stackdriver)
您可以通过以下方式访问它:
-
GCP Cloud Console (Web UI)
->Logging
->Upgrade
->Upgrade to the New Logs Explorer
并使用以下过滤器查找那些日志:
resource.type="k8s_node"
resource.labels.cluster_name="CLUSTER-NAME"
resource.labels.project_id="PROJECT-NAME"
resource.labels.location="ZONE"
其他资源: