问题描述
我的问题背景:
我正在使用mt随机森林回归器中scikit-learn的GridSearchCV执行超参数调整。为了减轻过度拟合,我发现也许应该使用修剪技术。我检查了docs,发现ccp_alpha
参数涉及修剪;而且我还发现了这个example,可以在决策树中进行修剪。
我的问题
由于我正在寻找随机森林(GRidSeachCV)的最佳参数,应如何输入ccp_alpha
值?我应该在GridSearchCV之前还是之后?考虑到每次执行GridSearchCV时,模型的结构都会发生变化...你们有参考吗?文章?
我的观点:
对我来说,先执行超参数调整,然后在训练和测试“最佳模型”之前添加ccp_alpha
(修剪)更有意义,但我不确定....
解决方法
由于ccp_alpha
也是要调整的参数,因此它应该是CV的一部分。您的其他参数也取决于此。
这是一个正则化参数(例如Lasso / Ridge回归中的lambda
),因此较高的值可以使您的树变得很小。