问题描述
很自豪能在这里回答我的第一个问题:) 我正在成为一名自学成才的数据科学家,每天都会带来另一个挑战。我今天的挑战:
我遵循了一个示例,其中有人曾经通过 pandas 'cut' 函数对值进行分箱,但这并没有消除数据的高偏度:
(-0.512,102.466] 838
(102.466,204.932] 33
(204.932,307.398] 17
(409.863,512.329] 3
(307.398,409.863] 0
所以我用熊猫 'qcut' 将它们分箱,以获得大部分均匀大小的分箱(分箱 'value_counts' 的分布没有“视觉”偏斜):
(7.854,10.5] 184
(21.679,39.688] 180
(-0.001,7.854] 179
(39.688,512.329] 176
(10.5,21.679] 172
我的直觉告诉我,在我通过“log”或“sqrt” f.e. 了解数据转换后,这不是处理倾斜数据的方法
我是在比较苹果和橙子吗? :)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)