在单台计算机上以独立模式运行Spark:是否值得通过Docker容器或其他方式将其在主服务器和工作服务器中拆分?

问题描述

我目前仅拥有一台计算机,而不会拥有另一台计算机。

  1. 我在其CPU内核上运行 Spark master=local[5],直接使用它:我将spark-corespark-sql设置为依赖项,完全没有其他配置,我的程序立即启动。当然很舒服。

  2. 但是我应该尝试通过 Docker 容器或 minikube Kubernetes )在我的计算机上?

解决方案#2 -具有所需的所有设置-奖励我更好的性能,因为 Spark 的设计确实可以这样工作,即使是在一台计算机上,

还是我会花点时间,因为我当前正在运行的模式,无需网络使用,不需要数据局部性将始终为我提供更好的性能,而解决方案#1 将始终是一台计算机上最好的?

我的假设是#1 很好。但是我对此没有真正的衡量标准。没有比较来源。谁曾在单机计算机上体验过两种做事方式?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)