免费提供Google Cloud积分无法创建Dataproc集群

问题描述

我正在使用Google Cloud的免费积分。我遵循了Dataproc tutorial,但是当我运行以下命令时,关于存储容量有一个错误

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
  --region=${REGION} \
  --zone=${ZONE} \
  --image-version=1.5 \
  --master-machine-type=n1-standard-4 \
  --worker-machine-type=n1-standard-4 \
  --bucket=${BUCKET_NAME} \
  --optional-components=ANACONDA,JUPYTER \
  --enable-component-gateway \
  --Metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

您知道如何解决此问题吗?我将n1-standard-4更改为n1-standard-1,但无法修复。但是,当我删除--image-version=1.5时,该命令有效。程序的其余部分是否会产生任何问题?

在Web界面中,当我单击JupyterLab链接时,我也看不到Dataproc群集上可用内核中的Python 3图标。我只有Python 2,并且一直说与服务器的连接已消失。

以下是JupyterLab错误图片

1

解决方法

您看到有关存储容量的错误,因为在1.5映像版本中,Dataproc使用更大的1000 GiB磁盘作为主节点和工作节点,以提高性能。您可以使用--master-boot-disk-size=100GB--worker-boot-disk-size=100GB命令标志来减小磁盘大小:

gcloud beta dataproc clusters create ${CLUSTER_NAME} \
  --region=${REGION} \
  --zone=${ZONE} \
  --image-version=1.5 \
  --master-machine-type=n1-standard-4 \
  --master-boot-disk-size=100GB \
  --worker-machine-type=n1-standard-4 \
  --worker-boot-disk-size=100GB \
  --bucket=${BUCKET_NAME} \
  --optional-components=ANACONDA,JUPYTER \
  --enable-component-gateway \
  --metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
  --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh

删除--image-version=1.5标志时,此命令使用默认情况下不支持Python 3的默认1.3映像版本,这就是为什么在JupyterLab中看不到Python 3内核的原因。