问题描述
我正在处理表格数据集,实际上很难确定整数列是数值列还是分类列。我主要考虑的是我正在构建的模型的准确性(无深度学习)。因此,我想知道是否可以将整数列既视为数值(按原样使用)又作为类别(进行一次热编码或将决策树与基于集合的拆分一起使用)。即同时给出列的两种表示方式,并让模型找出合适的特征。
我的问题是:在任何情况下,采用这种多重表示方法是否有意义?如果是这样,它与您正在训练的模型以及偏差方差的权衡有何关系?例如,逻辑(高偏差)与随机森林(高方差)。有没有建立起来的优点或缺点的既定理论或最佳实践呢?我是在分类问题的背景下问这个问题的。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)