问题描述
我已经在本地训练了pycaret模型,然后将其推到S3。现在,我想在更大的生产数据集上运行predict_model()方法。
使用boto3,我将模型pickle文件从S3复制到Spark EMR集群的主节点。然后我使用
导入库 from pycaret.classification import *
并尝试将我的预测应用如下-
model_path = '/tmp/catboost_model_aug19'
saved_model = load_model(model_path)
Transformation Pipeline and Model Successfully Loaded
new_data = spark.sql("select * from table").toPandas()
df = predict_model(saved_model,data = new_data)
当我运行predict_model()
时,错误地说出Pipeline not found
或者,当我在本地计算机上运行相同的代码时,它运行正常。如何解决此错误?
解决方法
使用哪个版本的Pycaret进行模型创建?我遇到了类似的错误,事实证明,腌制的模型是基于pycaret的先前版本构建的,而我拥有的是最新版本。