问题描述
我的问题有点复杂。让我解释一下:
我正在开发一种迭代变量选择方法。在每次迭代中,变量选择器从提供给模型的火车数据的总变量集中提出N个不同的变量子集。
这就是为什么我决定通过pyspark上的UDF对每个子集进行每个评估的原因,因为它们是非常昂贵的过程,需要对主要训练集中的模型进行训练和测试。
我的代码如下(我希望test_data
过滤数据集X
,在X(0,0.7]
上训练模型,并使用{{1} }列):
X(0.7,1.0]
如您所见,我已经设法将选择模型和后期模型所需的其他数据传递给UDF函数,但是我想不起来如何将主要训练集传递给UDF。通过在UDF中根据选择向量过滤训练集变量,对提出的模型进行训练和预测。
由于使用了UDF,我曾想过将主要的训练集保存到磁盘上以供读取,但是除了我觉得这很慢之外,我认为在同时运行此变量选择器对象时可能会引起问题。 / p>
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)