为多用户集成 jupyterhub 使用 pyspark 在顶层 YARN 上运行

问题描述

我需要使用在顶部 YARN 上运行的 pyspark 为多用户集成 jupyterhub。

你可以看到。我有一个集群，有 1 个主站，2 个从站。我在所有节点上安装了 hadoop，在主节点上安装了 spark、pyspark、jupyterhub。我将 jupyterhub 用于笔记本的多用户工作，每个用户都可以使用 pyspark，在单元格中创建一些交互式代码并通过纱线在集群上运行它。

我用过：

火花 3.0.1
Hadoop 3.2.0
jupyterhub 1.3.0

我找到了一些解决方案：

1.导出 sys env 变量以通过 pyspark 单元运行代码

但这仅适用于一位用户

export PYSPARK_DRIVER_PYTHON=jupyter 

export PYSPARK_DRIVER_PYTHON_OPTS='notebook'

2.使用 findspark 模块

我想知道这个解决方案可以在纱线上运行吗？对于多用户？

3.使用 toree/jupyter 内核

toree 0.3.0 移除了对 pyspark 的支持，当我使用旧版本时，出现问题 -> 错误

4.将 livy 与 sparkmagic 结合使用

livy 0.7.0 仅支持 spark 3.x，当我用于 spark 3.x 时出现问题 -> 错误

5.纱线生成器

似乎这个解决方案是由某人提供的，我找到了官方解决方案

如何在 jupyuterhub 上使用 pyspark，在 yarn 上运行？同一个 zeppelin 笔记本

非常感谢

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark apache-toree jupyter-notebook jupyterhub livy