问题描述
我想在Databricks Job中使用一个Maven软件包,该软件包将在新的自动Cluster上运行。常规交互式集群可以选择安装Maven软件包。此安装将解决此软件包的所有依赖关系。在自动集群上,您只能分配要在集群启动时安装的已下载jar。
我的问题是,这个jar的依赖项丢失了。当然,我可以下载它们并将它们添加到群集中,但是依赖关系树似乎很大。 我可以下载一个包含所有依赖项的jar(找不到一个)吗?还是可以通过其他方式安装我的软件包?
我需要的软件包是azure-eventhubs-spark。
解决方法
终于找到了我的解决方法。
要将maven包附加到作业(-集群),必须在工作区中创建库。在Databricks-UI的起始页上,选择“导入库”,然后创建所需的Maven软件包。可以在“作业”设置中将此软件包作为依赖项加载。
这是一个显而易见的解决方案,但我从未在databricks中创建lib,因此不知道此选项。