同时运行约10个批处理作业时，Flink纱线会话模式变得不稳定

问题描述

我正在尝试建立一个flink-yarn会话来运行大约100多个批处理作业。连接到〜40个任务管理器并正在运行约10个作业（每个任务管理器都有2个插槽和1GB内存）后，会话似乎变得不稳定。有足够的可用资源。 flink UI突然变得不可用，我想作业管理器可能已经死了。最终，纱线应用也被杀死。

作业管理器在4个核心16GB节点12 GB可用的内存上运行

有没有关于作业管理器资源及其可处理任务管理器数量的数学指南？

解决方法

我已解决此问题。 flink会话中断的原因是群集中工作计算机的带宽较低。运行任务管理器容器的工作计算机应至少具有750Mbps或更高的速度。每个任务管理器都有2个插槽和1GB内存，适度的带宽〜450Mbps不会减少它。如果工作是IO密集型工作，角色（工作经理与工人或工人与工人之间）之间的通信可能会超时（默认要求超时为100ms）。

我决定不增加询问超时时间，以免由于这个瓶颈而导致工作花费很长时间。

amazon-emr apache-flink flink-batch