SparkNLP示例代码下载900MB在databrcks上非常慢

问题描述

我正在尝试在https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb

上运行有关SparkNLP的ipython笔记本

我正在使用在数据块上运行它

 6.6 ML spark 2.4.5

代码

# no need for token columns 
use_embeddings = UniversalSentenceEncoder.pretrained('tfhub_use').\
setInputCols(["document"]).\
setoutputCol("sentence_embeddings")

接受

 10 minutes

下载900 MB的预训练模型。

它太慢，数据块的Spark UI显示没有活动任务，并且该节点是i3.8 EC2。此外，数据块显示，该代码仅运行一项作业/任务，因此没有并行计算。

我犯了一些错误吗？如何加快速度？

谢谢

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

apache-spark aws-databricks databricks johnsnowlabs-spark-nlp nlp