在GKE群集中安装Velero时,无法提取映像“ velero / velero-plugin-for-gcp:v1.1.0” 无法从公共Docker Hub提取图像解决方案?

问题描述

我正在尝试为Kubernetes备份安装和配置Velero。我已经遵循link在我的GKE集群中对其进行了配置。安装正常,但是velero无法正常工作。

我正在使用Google Cloud Shell运行我的所有命令(我已经在我的Google Cloud Shell中安装并配置了velero客户端)

在进一步检查velero部署和velero吊舱时,我发现它无法从docker存储库中提取映像。

kubectl get pods -n velero
NAME                      READY   STATUS              RESTARTS   AGE
velero-5489b955f6-kqb7z   0/1     Init:ErrImagePull   0          20s

velero pod(kubectl描述pod)出错(为便于阅读,编辑了输出-仅在下面显示相关信息)

    Events:
  Type     Reason     Age               From                                                  Message
  ----     ------     ----              ----                                                  -------
  normal   Scheduled  38s               default-scheduler                                     Successfully assigned velero/velero-5489b955f6-kqb7z to gke-gke-cluster1-default-pool-a354fba3-8674
  Warning  Failed     22s               kubelet,gke-gke-cluster1-default-pool-a354fba3-8674  Failed to pull image "velero/velero-plugin-for-gcp:v1.1.0": rpc error: code = UnkNown desc = Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)
  Warning  Failed     22s               kubelet,gke-gke-cluster1-default-pool-a354fba3-8674  Error: ErrImagePull
  normal   BackOff    21s               kubelet,gke-gke-cluster1-default-pool-a354fba3-8674  Back-off pulling image "velero/velero-plugin-for-gcp:v1.1.0"
  Warning  Failed     21s               kubelet,gke-gke-cluster1-default-pool-a354fba3-8674  Error: ImagePullBackOff
  normal   Pulling    8s (x2 over 37s)  kubelet,gke-gke-cluster1-default-pool-a354fba3-8674  Pulling image "velero/velero-plugin-for-gcp:v1.1.0"

用于安装velero的命令:(某些值作为变量给出)

velero install \
     --provider gcp \
     --plugins velero/velero-plugin-for-gcp:v1.1.0 \
     --bucket $storagebucket \
     --secret-file ~/velero-backup-storage-sa-key.json

Velero版本

velero version
Client:
        Version: v1.4.2
        Git commit: 56a08a4d695d893f0863f697c2f926e27d70c0c5
<error getting server version: timed out waiting for server status request to be processed>

GKE版本

v1.15.12-gke.2

解决方法

这不是私有集群吗? – 31分钟前mario

@mario这是一个私有集群,但是我可以部署其他服务而没有任何问题(例如:我已经成功部署了nginx)– 15分钟前的Sreesan

好吧,这是know limitation中的GKE Private Clusters。如您在documentation中所读:

无法从公共Docker Hub提取图像

症状

集群中运行的Pod在kubectl describe中显示警告,例如Failed to pull image: rpc error: code = Unknown desc = Error response from daemon: Get https://registry-1.docker.io/v2/: net/http: request canceled while waiting for connection (Client.Timeout exceeded while awaiting headers)

潜在原因

私有集群中的节点没有对公众的出站访问权限 互联网。他们对Google API和服务的访问权限有限, 包括容器注册表。

分辨率

您无法直接从Docker Hub获取图像。而是使用图片 托管在Container Registry上。请注意,虽然Container Registry的 Docker Hub mirror 可从私有群集访问,但不应独占 依靠。镜像只是一个缓存,因此图像会定期 删除后,私有集群将无法使用Docker Hub。

您还可以将其与this答案进行比较。

您可以通过简单的实验轻松地对其进行验证。尝试运行两个不同的nginx部署。第一个基于图像nginx(等于nginx:latest),第二个基于nginx:1.14.2

虽然第一种情况是完全可行的,因为可以从私有群集中访问的 Container Registry的Docker Hub镜像提取nginx:latest映像,但是任何尝试提取{{1} }将失败,您将在nginx:1.14.2事件中看到该错误。发生这种情况是因为 kubelet 无法在 GCR 中找到该版本的映像,并且它试图将其从公共Docker注册表(Pod)中提取出来。 私有群集中是不可能的。 “镜像只是一个缓存,因此会定期删除图像,并且私有集群无法回退到Docker Hub。” -您可以在文档中阅读。

如果您仍然有疑问,只需https://registry-1.docker.io/v2/进入您的节点并尝试运行以下命令:

ssh

虽然第一个可以完美运行,但第二个最终会失败:

curl https://cloud.google.com/container-registry/

curl https://registry-1.docker.io/v2/

原因? -“私有集群中的节点没有对公共Internet的出站访问。”

解决方案?

您可以搜索 GCR here中当前可用的内容。

在许多情况下,如果您未指定确切的版本(默认使用curl: (7) Failed to connect to registry-1.docker.io port 443: Connection timed out 标签),则应该可以获得所需的图像。虽然它可以帮助latest,但遗憾的是,velero/velero-plugin-for-gcp的版本目前在Google Container Registry的Docker Hub镜像中不可用。

通过使用Granting private nodes outbound internet access

Cloud NAT似乎是适用于您的情况的唯一合理的解决方案。