spark master无法处理并发作业AWS EMR

问题描述

我正在运行AWS EMR集群(emr-5.30.1,Spark 2.4.5,Livy 0.7.0)。我的服务将作业传递给livy,livy在群集模式下执行“火花提交”以将作业提交给yarn。 spark master是8核16GB机器。

我一次看到约15-20个职位提交给利维公司,就看到了失业的职位。 livy 日志显示“以代码143退出的火花提交” ,表明该进程已被内核或oom处理程序杀死。我无法在任何地方找到更多有关被终止进程的日志。提交这些作业时,监视主节点显示约100%的CPU和约80%的内存。

我尝试使用32GB主盘。该节点可以处理15-20个并行提交的作业,但是当并行作业超过〜30个时失败。

为解决此问题,我正在考虑在服务中加入一个队列,然后逐渐将工作(每8-10秒一次)传递给livy。我不愿意添加队列,因为它需要是分布式的。

我在这里有几个问题

  1. 这似乎是内存不足的问题,但我看不到明确的日志。我可以断定这是内存错误吗?
  2. 还有哪些其他替代解决方案/方法可以用来解决此问题。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...