如何使用 Azure Synapse Analytics 将自定义 Python 库导入 apache spark pool?

问题描述

根据 Microsoft 的文档,可以上传 python 轮文件,以便您可以在 Synapse Analytics 中使用自定义库。 这是该文档:https://docs.microsoft.com/en-us/azure/synapse-analytics/spark/apache-spark-azure-portal-add-libraries

我创建了一个简单的库,只有一个 hello world 函数,我可以用 pip 在我自己的计算机上安装它。所以我知道我的车轮文件有效。

我将我的轮子文件上传到 Microsoft 文档中说要上传文件的位置。

我还发现了一个 youtube 视频,其中有人在做我想做的事情。 这是视频:https://www.youtube.com/watch?v=t4-2i1sPD4U

Microsoft 的文档提到了这一点,“可以在会话之间添加修改自定义包。但是,您需要等待池和会话重新启动才能看到更新的包。”

据我所知,没有办法重新启动池,我也不知道如何判断池是关闭还是重新启动。

当我尝试在笔记本中使用该库时,出现未找到模块的错误

解决方法

如 HimanshuSinha-msft 建议的那样,更改火花池的比例设置确实会重新启动火花池。不过那不是我的问题。

实际问题是我需要在存储文件的数据湖存储中的 Storage Blob Data Contributor 角色。我假设是因为我已经拥有所有者权限并且因为我可以创建一个文件夹并在那里上传我拥有所有权限我需要。尽管一切正常,但我获得了 Storage Blob Data Contributor 角色。

,

向上或向下扩展将强制集群重新启动。