Spark Performance EMR2.4.5和EKS3.0.0

问题描述

我正在对一些Spark作业进行实验,并且试图比较EMR和EKS上的性能。我使用的硬件是2个m5.2xlarge实例(8个vCore,32 GiB内存)。原因是它是EKS和EMR之间通常共享的硬件实例,因此比较性能更可靠。

我还分享了spark配置:

--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g 

(对于EMR,Spark 2.4.5,对于Kubernetes,Spark 3.0.0)

spark作业从S3读取一些json文件,然后将镶木地板再次存储在S3上。 我系统地在EMR上从S3获得更快的读写(在EMR上大约快23%)。

那可能是因为EMR的s3特定优化吗?有什么可能要做的事情来使Kubernetes上的性能更好?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)