在数据块集群上安装 R 空间包所需的 c 库

问题描述

R 中的空间包通常依赖于 C 库来进行数值计算。如果 R 引擎无法使用认权限安装这些库,则在安装依赖于这些库的 R 包时会出现问题。似乎数据块集群给 R 带来了这样的障碍。我想有两种方法可以解决这个问题,1)创建一个带有相关脚本的 docker 容器来安装包,或者 2)通过 init 脚本安装它们。我认为后一种方法会更容易,但我遇到了一些问题。集群无法启动,因为我的 init 脚本无法执行。见下文 - 我也试过 sudo

set -euxo pipefail

apt install libgeos-dev
apt install libudunits2-dev
apt install libgdal-dev

相关的,这些应该只安装在驱动程序节点上吗?我看不出他们需要在工作节点上的原因。上面的代码将它安装在我认为的工人和驱动程序上。仅安装在驱动程序上,我想应该是:

if [[ $DB_IS_DRIVER = "TRUE" ]]; then
apt install libgeos-dev
apt install libudunits2-dev
apt install libgdal-dev

解决方法

我遇到了类似的情况,需要安装一些库,这些库是某些 R 包在 unix 环境中工作所需的。在 Databricks 上执行了一些类似于下面的命令以在 DBFS 中创建 initscript,希望它对您的问题有所帮助。
此外,它们应该安装在所有节点上,而不仅仅是驱动程序节点,如果您希望使用分布式计算,R 包也可以在工作节点上工作。

dbutils.fs.mkdirs("dbfs:/databricks/initscripts/") 

dbutils.fs.put("/databricks/initscripts/installpackagehelpers.sh","""
#!/bin/bash
echo "Installing libgmp"
sudo apt-get -q -y --fix-missing install libgmp-dev
echo "Installed libgmp" 
echo "Installing libmpfr"
sudo apt-get -q -y --fix-missing install libmpfr-dev
echo "Installed libmpfr"
""",True)

最后,在创建集群时提供了来自 DBFS 的 initscript 位置。 /databricks/initscripts/installpackagehelpers.sh 如上例