问题描述
我需要使用在顶部 YARN 上运行的 pyspark 为多用户集成 jupyterhub。
你可以看到。我有一个集群,有 1 个主站,2 个从站。我在所有节点上安装了 hadoop,在主节点上安装了 spark、pyspark、jupyterhub。我将 jupyterhub 用于笔记本的多用户工作,每个用户都可以使用 pyspark,在单元格中创建一些交互式代码并通过纱线在集群上运行它。
我用过:
- 火花 3.0.1
- Hadoop 3.2.0
- jupyterhub 1.3.0
我找到了一些解决方案:
1.导出 sys env 变量以通过 pyspark 单元运行代码
但这仅适用于一位用户
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook'
2.使用 findspark 模块
3.使用 toree/jupyter 内核
toree 0.3.0 移除了对 pyspark 的支持,当我使用旧版本时,出现问题 -> 错误
4.将 livy 与 sparkmagic 结合使用
livy 0.7.0 仅支持 spark 3.x,当我用于 spark 3.x 时出现问题 -> 错误
5.纱线生成器
如何在 jupyuterhub 上使用 pyspark,在 yarn 上运行?同一个 zeppelin 笔记本
非常感谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)