消除探索性数据分析 (EDA) 中的偏度

问题描述

很自豪能在这里回答我的第一个问题:) 我正在成为一名自学成才的数据科学家,每天都会带来另一个挑战。我今天的挑战:

我遵循了一个示例,其中有人曾经通过 pandas 'cut' 函数对值进行分箱,但这并没有消除数据的高偏度:

(-0.512,102.466]     838
(102.466,204.932]     33
(204.932,307.398]     17
(409.863,512.329]      3
(307.398,409.863]      0

所以我用熊猫 'qcut' 将它们分箱,以获得大部分均匀大小的分箱(分箱 'value_counts' 的分布没有“视觉”偏斜):

(7.854,10.5]        184
(21.679,39.688]     180
(-0.001,7.854]      179
(39.688,512.329]    176
(10.5,21.679]       172

我的直觉告诉我,在我通过“log”或“sqrt” f.e. 了解数据转换后,这不是处理倾斜数据的方法

我是在比较苹果和橙子吗? :)

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)