具有Dataprep的ETL-联合数据集

问题描述

我是GCP的新手,我每天都在学习,而且我喜欢这个平台。 我正在使用GCP的dataprep联接几个csv文件(具有相同的列结构),处理一些数据并写入BigQuery。

我创建了一个存储(插槽)以将所有60个csv文件放入其中。我可以在dataprep中将数据集定义为所有这些文件的并集吗?还是必须为每个文件创建一个数据集?

非常感谢您的时间和精力。

解决方法

如果您的所有文件都在GCS的目录中,则可以将该目录作为单个数据集导入。 process与导入单个文件相同。不过,您必须确保该目录内所有文件的列结构完全相同。

如果为每个文件创建一个单独的数据集,则在使用UNION page进行连接时,它们在结构上会更加灵活。

但是,如果您的用例只是将所有文件(〜60个)加载到Bigquery中的单个表中而不进行任何转换,那么我建议您仅使用BigQuery load作业。您可以在Cloud Storage URI中使用wildcard来指定所需的文件。当前,BigQuery加载作业为free of charge,因此与使用Dataprep相比,这将是一个非常经济高效的解决方案。