为多用户集成 jupyterhub 使用 pyspark 在顶层 YARN 上运行

问题描述

我需要使用在顶部 YARN 上运行的 pyspark 为多用户集成 jupyterhub。

enter image description here

你可以看到。我有一个集群,有 1 个主站,2 个从站。我在所有节点上安装了 hadoop,在主节点上安装了 spark、pyspark、jupyterhub。我将 jupyterhub 用于笔记本的多用户工作,每个用户都可以使用 pyspark,在单元格中创建一些交互式代码并通过纱线在集群上运行它。

我用过:

  • 火花 3.0.1
  • Hadoop 3.2.0
  • jupyterhub 1.3.0

我找到了一些解决方案:

1.导出 sys env 变量以通过 pyspark 单元运行代码

但这仅适用于一位用户

export PYSPARK_DRIVER_PYTHON=jupyter 

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

2.使用 findspark 模块

我想知道这个解决方案可以在纱线上运行吗?对于多用户

3.使用 toree/jupyter 内核

toree 0.3.0 移除了对 pyspark 的支持,当我使用旧版本时,出现问题 -> 错误

4.将 livy 与 sparkmagic 结合使用

livy 0.7.0 仅支持 spark 3.x,当我用于 spark 3.x 时出现问题 -> 错误

5.纱线生成

似乎这个解决方案是由某人提供的,我找到了官方解决方

如何在 jupyuterhub 上使用 pyspark,在 yarn 上运行?同一个 zeppelin 笔记本

非常感谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)