使用Pandas UDF选择Pyspark变量

问题描述

我的问题有点复杂。让我解释一下:

我正在开发一种迭代变量选择方法。在每次迭代中,变量选择器从提供给模型的火车数据的总变量集中提出N个不同的变量子集。

这就是为什么我决定通过pyspark上的UDF对每个子集进行每个评估的原因,因为它们是非常昂贵的过程,需要对主要训练集中的模型进行训练和测试。

我的代码如下(我希望test_data过滤数据集X,在X(0,0.7]上训练模型,并使用{{1} }列):

X(0.7,1.0]

如您所见,我已经设法将选择模型和后期模型所需的其他数据传递给UDF函数,但是我想不起来如何将主要训练集传递给UDF。通过在UDF中根据选择向量过滤训练集变量,对提出的模型进行训练和预测。

由于使用了UDF,我曾想过将主要的训练集保存到磁盘上以供读取,但是除了我觉得这很慢之外,我认为在同时运行此变量选择器对象时可能会引起问题。 / p>

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)