使用Pandas UDF选择Pyspark变量

我的问题有点复杂。让我解释一下：

我正在开发一种迭代变量选择方法。在每次迭代中，变量选择器从提供给模型的火车数据的总变量集中提出N个不同的变量子集。

这就是为什么我决定通过pyspark上的UDF对每个子集进行每个评估的原因，因为它们是非常昂贵的过程，需要对主要训练集中的模型进行训练和测试。

我的代码如下（我希望test_data过滤数据集X，在X(0,0.7]上训练模型，并使用{{1} }列）：

X(0.7,1.0]

如您所见，我已经设法将选择模型和后期模型所需的其他数据传递给UDF函数，但是我想不起来如何将主要训练集传递给UDF。通过在UDF中根据选择向量过滤训练集变量，对提出的模型进行训练和预测。

由于使用了UDF，我曾想过将主要的训练集保存到磁盘上以供读取，但是除了我觉得这很慢之外，我认为在同时运行此变量选择器对象时可能会引起问题。 / p>

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）