在 Google Cloud Storage 中使用 Flink Table APIFlink 版本 1.12.0存储镶木地板文件时出现内存不足错误-堆

问题描述

希望你一切顺利。我们目前使用 Flink Table API(Flink Version-1.12.0)从 Kafka 流式传输数据并将其存储在 Google Cloud Storage 中。我们用来存储数据的文件格式是 Parquet。最初,Flink 作业运行良好,我们能够流式传输数据并将其成功存储在 Google Cloud Storage 中。但是我们注意到,一旦我们增加了输入数据的基数,也增加了到 Kafka 的数据量,即每秒向 Kafka 传输更多事件,我们注意到 Flink Job 会抛出以下错误

  1. 超出 GC 超限
  2. Java 堆内存空间不足 - 错误

我们尝试使用 Kubernetes 集群运行 flink,并在 YARN 上运行 flink。在这两种情况下,随着数据量的增加,我们看到了上述错误。 我们提供了 2 个任务管理器,每个 10 GB,为作业管理器提供 1 GB。我们的 flink 作业的检查点间隔是 3 分钟。我知道 Flink-https://issues.apache.org/jira/browse/FLINK-20945 中存在一个错误。 如果有办法解决这个问题,请告诉我。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)