问题描述
我正在使用Google Cloud的免费积分。我遵循了Dataproc tutorial,但是当我运行以下命令时,关于存储容量有一个错误。
gcloud beta dataproc clusters create ${CLUSTER_NAME} \
--region=${REGION} \
--zone=${ZONE} \
--image-version=1.5 \
--master-machine-type=n1-standard-4 \
--worker-machine-type=n1-standard-4 \
--bucket=${BUCKET_NAME} \
--optional-components=ANACONDA,JUPYTER \
--enable-component-gateway \
--Metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
--initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh
您知道如何解决此问题吗?我将n1-standard-4
更改为n1-standard-1
,但无法修复。但是,当我删除--image-version=1.5
时,该命令有效。程序的其余部分是否会产生任何问题?
在Web界面中,当我单击JupyterLab链接时,我也看不到Dataproc群集上可用内核中的Python 3图标。我只有Python 2,并且一直说与服务器的连接已消失。
解决方法
您看到有关存储容量的错误,因为在1.5映像版本中,Dataproc使用更大的1000 GiB磁盘作为主节点和工作节点,以提高性能。您可以使用--master-boot-disk-size=100GB
和--worker-boot-disk-size=100GB
命令标志来减小磁盘大小:
gcloud beta dataproc clusters create ${CLUSTER_NAME} \
--region=${REGION} \
--zone=${ZONE} \
--image-version=1.5 \
--master-machine-type=n1-standard-4 \
--master-boot-disk-size=100GB \
--worker-machine-type=n1-standard-4 \
--worker-boot-disk-size=100GB \
--bucket=${BUCKET_NAME} \
--optional-components=ANACONDA,JUPYTER \
--enable-component-gateway \
--metadata 'PIP_PACKAGES=google-cloud-bigquery google-cloud-storage' \
--initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/python/pip-install.sh
删除--image-version=1.5
标志时,此命令使用默认情况下不支持Python 3的默认1.3映像版本,这就是为什么在JupyterLab中看不到Python 3内核的原因。