问题描述
我很想将HDFS上的Google存储桶公开给服务。 有问题的服务是一个群集(SOLR),由于我没有hadoop(也不需要它),因此只能与HDFS对话,理想情况下,我希望有一个Docker容器,该容器将Google存储桶用作后端并公开它通过HDFS的内容。 如果可能的话,我想避免安装(例如保险丝gcsfs),有人做过这种事吗?
我想我可以挂载gcsfs并使用HDFS设置单个节点群集,但是有没有更简单/更可靠的方法?
任何提示/指示都值得赞赏。
解决方法
Cloud Storage Connector for Hadoop是您可能需要的工具。
这不是Docker映像,而是安装。进一步的说明可以在GitHub repository中的README.md和INSTALL.md
下找到。如果从AWS S3访问它,则需要一个具有访问Cloud Storage权限的服务帐户,并将环境变量MyObject myObjectSummed = new MyObject();
foreach(var prop in myObjectSummed.GetType().GetProperties().Where(p => p.PropertyType == typeof(int)))
{
prop.SetValue(myObjectSummed,myObjects.Sum(x => (int)prop.GetValue(x)));
}
设置为/ path / to / keyfile。
要将SOLR与GCS一起使用,实际上确实需要一个hadoop集群,并且可以在GCP中通过创建dataproc集群来做到这一点,然后使用上述连接器将SOLR解决方案与GCS连接。有关更多信息,请检查此SOLR