CoGroupByKey总是在大数据PythonSDK上失败

问题描述

我大约输入了4000个文件(每个平均约7MB)。

当数据大小达到约4GB时,我的管道总是在步骤CoGroupByKey上失败。 我试图限制只使用300个文件,然后它运行得很好。

万一失败,GCP数据流上的日志仅显示

Workflow Failed. Causes: S24:CoGroup Geo data/GroupByKey/Read+CoGroup Geo data/GroupByKey/GroupByWindow+CoGroup Geo data/Map(_merge_tagged_vals_under_key) Failed.,The job Failed because a work item has Failed 4 times. Look in prevIoUs log entries for the cause of each one of the 4 failures. For more information,see https://cloud.google.com/dataflow/docs/guides/common-errors. The work item was attempted on these workers: 
  store-migration-10212040-aoi4-harness-m7j7
      Root cause: The worker lost contact with the service.,store-migration-xxxxx
      Root cause: The worker lost contact with the service.,store-migration-xxxxx
      Root cause: The worker lost contact with the service.

我在Logs Explorer中浏览所有日志。除上述以外,没有其他任何指示错误的地方,甚至我的logging.infotry...except代码也是如此。

认为这与实例的内存有关,但是我没有深入研究这个方向。因为这就是我在使用GCP服务时不需要担心的事情。

谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)