同时运行约10个批处理作业时,Flink纱线会话模式变得不稳定

问题描述

我正在尝试建立一个flink-yarn会话来运行大约100多个批处理作业。连接到〜40个任务管理器并正在运行约10个作业(每个任务管理器都有2个插槽和1GB内存)后,会话似乎变得不稳定。有足够的可用资源。 flink UI突然变得不可用,我想作业管理器可能已经死了。最终,纱线应用也被杀死。

作业管理器在4个核心16GB节点12 GB可用的内存上运行

有没有关于作业管理器资源及其可处理任务管理器数量的数学指南?

解决方法

我已解决此问题。 flink会话中断的原因是群集中工作计算机的带宽较低。运行任务管理器容器的工作计算机应至少具有750Mbps或更高的速度。每个任务管理器都有2个插槽和1GB内存,适度的带宽〜450Mbps不会减少它。如果工作是IO密集型工作,角色(工作经理与工人或工人与工人之间)之间的通信可能会超时(默认要求超时为100ms)。

我决定不增加询问超时时间,以免由于这个瓶颈而导致工作花费很长时间。