问题描述
我正在运行AWS EMR集群(emr-5.30.1,Spark 2.4.5,Livy 0.7.0)。我的服务将作业传递给livy,livy在群集模式下执行“火花提交”以将作业提交给yarn。 spark master是8核16GB机器。
我一次看到约15-20个职位提交给利维公司,就看到了失业的职位。 livy 日志显示“以代码143退出的火花提交” ,表明该进程已被内核或oom处理程序杀死。我无法在任何地方找到更多有关被终止进程的日志。提交这些作业时,监视主节点显示约100%的CPU和约80%的内存。
我尝试使用32GB主盘。该节点可以处理15-20个并行提交的作业,但是当并行作业超过〜30个时失败。
为解决此问题,我正在考虑在服务中加入一个队列,然后逐渐将工作(每8-10秒一次)传递给livy。我不愿意添加队列,因为它需要是分布式的。
我在这里有几个问题
- 这似乎是内存不足的问题,但我看不到明确的日志。我可以断定这是内存错误吗?
- 还有哪些其他替代解决方案/方法可以用来解决此问题。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)