在 AWS ElasticMapReduce 集群上的 Jupyterhubpyspark3 内核中定义每个用户的内存配额

问题描述

我们使用安装在 AWS EMR 集群上的 Jupyter 笔记本和 Spark。我们希望限制对集群内存的访问并在 YARN 级别定义每个用户的配额,以减少集群的负载并确保用户不会使用大量内存。

示例:用户使用这个 sparkmagic 命令 %%configure 配置他们的 pyspark3 内核

%%configure -f 
{
  "conf":{
    "spark.pyspark.python": "python3","spark.pyspark.virtualenv.enabled": "true","spark.pyspark.virtualenv.type":"native","spark.pyspark.virtualenv.bin.path":"/usr/bin/virtualenv","spark.executor.memory":"10g","spark.driver.memory": "10g","spark.executor.cores": "1","spark.num.executors": "1","spark.driver.maxResultSize": "5g","spark.yarn.executor.memoryOverhead": "1g","spark.yarn.driver.memoryOverhead": "1g" 
  }
}

这个想法是为每个用户定义一个不超过使用的内存和内核数量的阈值。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)