问题描述
如何在没有互联网连接的情况下安装离线Spark NLP软件包。
我已经下载了软件包(x_varnames = x_vars.flatten().tolist()
),并将其上传到集群中。
我已经使用recognizee_entities_dl
安装了Spark NLP。
我正在使用PySpark,并且无法从群集中下载软件包。
已经尝试过;
pip install spark-nlp==2.5.5
错误:
pipeline = PretrainedPipeLine.from_disk('/path/to/recognize_entities_dl')
pipeline = PretrainedPipeLine.load('/path/to/recognize_entities_dl')
解决方法
查看您的错误:
hdfs://...../recognize_entities_dl_en_2.4.3_2.4_1584626752821/metatdata
元数据,您应该通过删除一个额外的“ t”来更改为元数据。
此外,您在“ recognize_entities_dl_en_ 2.4.3 _2.4_1584626752821”中看到了 2.4.3
这表示它适用于 Spark NLP 2.4.3
但是,在问题中,您提到您正在使用
spark-nlp==2.5.5
只要没事,
2.5.5 >= 2.4.3
但有时会引起问题。
在也 2.4
这表明它适用于 Apache Spark 2.4
针对Apache Spark 2.4.x构建和编译的Spark NLP库。这就是为什么模型和管道仅适用于2.4.x版本的原因。