是否可以在构建模型时启用 H2O DAI 检查变量多重共线性?

问题描述

在使用 H2O DAI 构建模型时,我注意到在最终模型中会有一些相关变量。 例如,变量“过去 9 个月的最大储蓄账户数”和“过去 3 个月的最大储蓄账户数”都出现在最终模型中,但它们具有很高的相关性。 了解我们可以在为 H2O DAI 提供数据之前检查这一点的方法,但我想知道是否有一些设置或好方法让 H2O DAI 在选择特征以构建模型时自动检查变量多重共线性?

提前感谢您的帮助。

解决方法

如果您想查看相关特征并在构建模型之前手动删除它们。转到 Autoviz 部分并查看 Correlated Scatterplots,然后从实验或数据集中删除这些列。

删除共线特征对于任何建模都很困难,因为您不知道哪个特征会比另一个更好。如果同时拥有“过去 9 个月的最大储蓄账户数量”和“过去 3 个月的最大储蓄账户数量”使您的模型表现得比只有一个要好得多,该怎么办?这就是领域知识变得重要的地方,应该由专家决定。

消除某些共线性的一种方法是限制模型具有的特征数量。您可以使用 max_orig_cols_selected 来限制数量。您可以在专家设置或 config.toml (see for more info) 中进行设置。但正如我之前所说,很难确定某些共线特征是否应该保留在其他特征之上。

另一种选择是使用固有地进行特征选择的算法/模型,例如 L1 (LASSO) 回归。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...