如何解决Google Data Fusion中的此错误:“阶段x包含非常大的任务2803 KB建议的最大任务大小为100 KB”

问题描述

我需要将数据从参数化的S3存储桶移至Google Cloud Storage。基本数据转储。我没有S3存储桶。它具有以下语法,

s3://data-partner-bucket/mykey/folder/date=2020-10-01/hour=0

我能够使用Data Fusion提供的Amazon S3 Client按小时粒度传输数据。我想带来一整天的数据,因此我将客户端中的路径重置为:

s3://data-partner-bucket/mykey/folder/date=2020-10-01

在停止之前,它似乎一直在工作。状态为“已停止”。当我查看日志即将停止时,我看到一条警告:“阶段0包含一个很大的任务(2803 KB)。建议的最大任务大小是100 KB。”

我检查了S3存储桶中的数据。每个文件夹包含一系列日志文件。它们都不是“大”的。最大的文件夹总共包含3MB的数据。

对于此错误,我也遇到了类似的问题,但是答案涉及我在Data Fusion中无法访问的Spark编码。

Screenshot of Advanced Settings in Amazon S3 Client

这些是我在客户端中看到的设置。也许我需要设置其他设置?我需要怎么做才能使Data Fusion可以将这些文件从S3导入到GCS?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)