GKE Helm http2 连接丢失 概述:

问题描述

我尝试使用 n1-highmem-4 池创建 GKE 集群(版本:1.18.15-gke.1500)。 一切正常,直到我尝试安装舵图。 helm 二进制文件(版本:3.5.2)最终出现错误“http2 连接丢失”。 GKE 触发自动修复模式。 我不明白为什么,因为我使用 kubectl 创建一些 configmap 没有问题。 您知道是否可以在某些地方找到有关矿池机器或 GKE 总体规划的日志?

解决方法

如果没有关于该集群是如何创建的、使用 Helm 应用了哪些资源以及来自集群的日志(我将说明如何检索)的信息,可能很难查明问题和原因后面。


概述:

GKE 的节点自动修复功能可帮助您将 nodes 中的 cluster 保持在健康的运行状态。启用后,GKE 会定期检查集群中每个节点的运行状况。如果某个节点在很长一段时间内连续未通过健康检查,GKE 会启动该节点的修复过程。

-- Cloud.google.com: Kubernetes Engine: Docs: How to: Node auto repair: Overview

回答发布的问题:

你知道我是否可以找到有关矿池机器或 GKE 总体规划的日志吗?

是的。您可以通过多种方式检查集群运行状况及其日志。

GKE 生成自动修复事件的日志条目。您可以使用以下命令检查日志:

  • gcloud container operations list

输出应类似于以下内容:

operation-XXXXXXXXXXXXX-XXXXXXXX  CREATE_CLUSTER     europe-west3-c  example-cluster                                                 DONE    2021-03-07T11:59:55.133563829Z  2021-03-07T12:03:09.684215827Z
operation-YYYYYYYYYYYYY-YYYYYYYY  AUTO_REPAIR_NODES  europe-west3-c  gke-example-cluster-default-pool-AAAAAAAA-AAAA                  DONE    2021-03-07T12:21:14.814774338Z  2021-03-07T12:24:15.6305881Z

除此之外,您还可以使用以下命令查找特定节点日志:Google Cloud's operations suite (formerly Stackdriver)

您可以通过以下方式访问它:

  • GCP Cloud Console (Web UI) -> Logging -> Upgrade -> Upgrade to the New Logs Explorer

并使用以下过滤器查找那些日志:

resource.type="k8s_node"
resource.labels.cluster_name="CLUSTER-NAME"
resource.labels.project_id="PROJECT-NAME"
resource.labels.location="ZONE"

其他资源: