GCP |Dataproc|如何创建持久的 HDFS 卷意味着即使您删除了 dataproc 集群也不应该删除 HDFS?是否有可能?

问题描述

GCP dataproc - 当您终止 dataproc 集群时,HDFS 会自动删除。即使删除了 dataproc 集群,如何使其持久化 HDFS 也不应该删除 HDFS?可能吗?

解决方法

可以使用 Google 云存储。默认情况下,此连接器安装在 Dataproc 中。当您关闭 Hadoop 集群时,与 HDFS 不同,您可以继续访问 Cloud Storage 中的数据。 How to use Cloud-Storage connector

,

当您在 GCP 中创建 dataproc 集群时,它使用 Hadoop 分布式文件系统 (HDFS) 进行存储。

根据您的声明,当您终止 dataproc 集群时,您的 HDFS 会自动删除,如果您使用的是 VM 磁盘,则会发生这种情况。

HDFS 数据和中间 shuffle 数据存储在 VM 启动盘上,如果不提供本地 SSD,则为 Persistent Disk。

如果连接了本地 SSD,HDFS 将保留在 SSD 中,不会被删除。删除集群时,VM 启动盘也会被删除。

您也可以查看此文档以避免在 dataproc 中使用 VM 磁盘丢失 HDFS。

Dataproc HDFS

Local SSD in Dataproc

,
  • 查看可用文档,目前似乎无法使用持久性 HDFS 卷。
  • 您可以查看 Dataproc release notes 更新以查看有关此功能的更新
  • 从 Google 官方文档常见问题解答中找到了与您的问题 What happens to my data when a cluster is shut down 类似的情况,其中的答案可能对您有所帮助
  • 作为最佳实践,谷歌建议使用 GCP 作为 Dataproc 的持久存储层。 Google Cloud Storage connector 这将为您提供对存储在 Cloud Storage 中的文件的“直接数据访问”并直接访问它们。