如何跟踪Google Cloud公共数据集中的变化?

问题描述

Google云服务的云存储服务中有一堆public datasets。我想跟踪对某些公共数据集的更新/添加。即在将新文件添加到公共数据段时创建某种Webhook。

我了解了google pubsub notifications,这是一种创建pubsub主题以将更改通知推送到存储桶的可能性。

但是,我无法确定此类主题是否已经存在于我可以订阅的公共数据集中,或者如何基于公共数据集存储桶创建此类主题

是否有可能使用pubsub来跟踪公共数据集上的更改的方法

解决方法

您可以尝试从公共数据集中列出对每个存储分区执行的更改。例如,数据集Landsat data的存储桶位置为 gs://gcp-public-data-landsat。如本官方文档here所述,您可以使用命令gsutil notification watchbucket来监视存储区。

使用此命令及其参数,您应该能够设置要跟踪更新的存储桶以及将数据发送到的位置。监视桶gcp-public-data-landsat进行更改并将通知发送到在example.com上运行的应用程序服务器的命令示例:

gsutil notification watchbucket https://example.com/notify gs://gcp-public-data-landsat

有关notification命令的更多信息,请参见here

我建议您尝试使用它,因为它似乎是可用的选项,因为没有任何预设或配置来监视这些数据集。