问题描述
我需要将数据从参数化的S3存储桶移至Google Cloud Storage。基本数据转储。我没有S3存储桶。它具有以下语法,
s3://data-partner-bucket/mykey/folder/date=2020-10-01/hour=0
我能够使用Data Fusion提供的Amazon S3 Client按小时粒度传输数据。我想带来一整天的数据,因此我将客户端中的路径重置为:
s3://data-partner-bucket/mykey/folder/date=2020-10-01
在停止之前,它似乎一直在工作。状态为“已停止”。当我查看日志即将停止时,我看到一条警告:“阶段0包含一个很大的任务(2803 KB)。建议的最大任务大小是100 KB。”
我检查了S3存储桶中的数据。每个文件夹包含一系列日志文件。它们都不是“大”的。最大的文件夹总共包含3MB的数据。
对于此错误,我也遇到了类似的问题,但是答案涉及我在Data Fusion中无法访问的Spark编码。
Screenshot of Advanced Settings in Amazon S3 Client
这些是我在客户端中看到的设置。也许我需要设置其他设置?我需要怎么做才能使Data Fusion可以将这些文件从S3导入到GCS?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)