问题描述
我对boxcox转换(或对数转换)有疑问。我正在研究一个具有许多偏斜特征的数据集。现在,当我进行boxcox转换时,我得到了一个很好的分布,但是相关性降低了。现在,如果我正在使用线性模型,则只需考虑相关性即可决定是否应该转换特征。但是正如我提到的那样,我正在使用基于树的模型,因此应该对特征进行转换以使其分布更加分散,还是应该保留该特征以避免其相关性降低。
我为已转换和未转换的屏幕快照添加了分布及其与目标变量的关系的屏幕快照(左2绘制了原始特征和目标)。
PS:从图表中猜测,在我看来,如果我变换特征,则树将更容易为该特定特征找到分割。
非常感谢
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)