Spark Performance EMR2.4.5和EKS3.0.0

问题描述

我正在对一些Spark作业进行实验，并且试图比较EMR和EKS上的性能。我使用的硬件是2个m5.2xlarge实例（8个vCore，32 GiB内存）。原因是它是EKS和EMR之间通常共享的硬件实例，因此比较性能更可靠。

我还分享了spark配置：

--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g

（对于EMR，Spark 2.4.5，对于Kubernetes，Spark 3.0.0）

spark作业从S3读取一些json文件，然后将镶木地板再次存储在S3上。我系统地在EMR上从S3获得更快的读写（在EMR上大约快23％）。

那可能是因为EMR的s3特定优化吗？有什么可能要做的事情来使Kubernetes上的性能更好？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

amazon-eks amazon-emr apache-spark