EMR

问题描述

如何在aws EMR集群中具有多个python虚拟环境。用户将对每个项目使用Zeppelin或Jupyter,每个项目将具有不同的python库或python版本集

解决方法

您可以编写一个bash脚本来循环遍历包含虚拟环境名称及其库的类似于地图的结构(如果您有多个项目,它将使维护变得更容易)。循环的主体将包括:

  1. 创建虚拟环境:virtualenv project_foo
  2. 激活虚拟环境:source project_foo/bin/activate
  3. 安装ipykernel,为您的Jupyter笔记本计算机提供Ipython内核
  4. 安装您的python库
  5. 将虚拟环境添加到Jupyter:python -m ipykernel install --user --name=project_foo
  6. 退出虚拟环境:deactivate

现在使用Bootstrap Actions在启动时运行脚本。您应该能够从Jupyter的启动器中查看虚拟环境。