HDFS over S3 / Google存储桶转换层-怎么样?

问题描述

我很想将HDFS上的Google存储桶公开给服务。 有问题的服务是一个群集(SOLR),由于我没有hadoop(也不需要它),因此只能与HDFS对话,理想情况下,我希望有一个Docker容器,该容器将Google存储桶用作后端并公开它通过HDFS的内容。 如果可能的话,我想避免安装(例如保险丝gcsfs),有人做过这种事吗?

我想我可以挂载gcsfs并使用HDFS设置单个节点群集,但是有没有更简单/更可靠的方法?

任何提示/指示都值得赞赏。

解决方法

Cloud Storage Connector for Hadoop是您可能需要的工具。

这不是Docker映像,而是安装。进一步的说明可以在GitHub repository中的README.md和INSTALL.md

下找到。

如果从AWS S3访问它,则需要一个具有访问Cloud Storage权限的服务帐户,并将环境变量MyObject myObjectSummed = new MyObject(); foreach(var prop in myObjectSummed.GetType().GetProperties().Where(p => p.PropertyType == typeof(int))) { prop.SetValue(myObjectSummed,myObjects.Sum(x => (int)prop.GetValue(x))); } 设置为/ path / to / keyfile。


要将SOLR与GCS一起使用,实际上确实需要一个hadoop集群,并且可以在GCP中通过创建dataproc集群来做到这一点,然后使用上述连接器将SOLR解决方案与GCS连接。有关更多信息,请检查此SOLR

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...