SparkNLP示例代码下载900MB在databrcks上非常慢

问题描述

我正在尝试在https://github.com/JohnSnowLabs/spark-nlp-workshop/blob/master/tutorials/Certification_Trainings/Public/databricks_notebooks/3.SparkNLP_Pretrained_Models.ipynb

上运行有关SparkNLP的ipython笔记本

我正在使用在数据块上运行它

 6.6 ML spark 2.4.5

代码

# no need for token columns 
use_embeddings = UniversalSentenceEncoder.pretrained('tfhub_use').\
setInputCols(["document"]).\
setoutputCol("sentence_embeddings")

接受

 10 minutes 

下载900 MB的预训练模型。

它太慢,数据块的Spark UI显示没有活动任务,并且该节点是i3.8 EC2。 此外,数据块显示,该代码仅运行一项作业/任务,因此没有并行计算。

我犯了一些错误吗?如何加快速度?

谢谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...