spark master无法处理并发作业AWS EMR

我正在运行AWS EMR集群（emr-5.30.1，Spark 2.4.5，Livy 0.7.0）。我的服务将作业传递给livy，livy在群集模式下执行“火花提交”以将作业提交给yarn。 spark master是8核16GB机器。

我一次看到约15-20个职位提交给利维公司，就看到了失业的职位。 livy 日志显示“以代码143退出的火花提交” ，表明该进程已被内核或oom处理程序杀死。我无法在任何地方找到更多有关被终止进程的日志。提交这些作业时，监视主节点显示约100％的CPU和约80％的内存。

我尝试使用32GB主盘。该节点可以处理15-20个并行提交的作业，但是当并行作业超过〜30个时失败。

为解决此问题，我正在考虑在服务中加入一个队列，然后逐渐将工作（每8-10秒一次）传递给livy。我不愿意添加队列，因为它需要是分布式的。

我在这里有几个问题

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

相关问答