问题描述
我正在对一些Spark作业进行实验,并且试图比较EMR和EKS上的性能。我使用的硬件是2个m5.2xlarge实例(8个vCore,32 GiB内存)。原因是它是EKS和EMR之间通常共享的硬件实例,因此比较性能更可靠。
我还分享了spark配置:
--conf spark.executor.instances=2 \
--conf spark.executor.cores=3 \
--conf spark.default.parallelism=16 \
--conf spark.executor.memory=4g \
--conf spark.driver.memory=4g \
--conf spark.executor.memoryOverhead=4g
(对于EMR,Spark 2.4.5,对于Kubernetes,Spark 3.0.0)
spark作业从S3读取一些json文件,然后将镶木地板再次存储在S3上。 我系统地在EMR上从S3获得更快的读写(在EMR上大约快23%)。
那可能是因为EMR的s3特定优化吗?有什么可能要做的事情来使Kubernetes上的性能更好?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)